推荐系统挖掘长尾了吗?

今天突然想到一个一直没仔细思考过得问题:推荐系统是用来挖掘长尾的吗?

在项亮的《推荐系统实战》中有这么一段话:从物品的角度出发,推荐系统可以更好地发掘物品的长尾(long tail)。美国《连线》杂志主编Chris Anderson在2004年发表了“The Long Tail”一文并于2006年出版了《长尾理论》一书。该书指出,传统的80/20原则(80%的销售额来自于20%的热门品牌)在互联网的加入下会受到挑战。互联网条件下,由于货架成本极端低廉,电子商务网站往往能售出比传统零售店更多的商品。虽然这些商品绝大多数都不热门,但与传统零售业相比,这些不热门的商品数量极其庞大,因此这些长尾商品的总销售额将是一个不可小觑的数字,也许会超过热门商品(即主流商品)带来的销售额。主流商品往往代表了绝大多数用户的需求,而长尾商品往往代表了一小部分用户的个性化需求。因此,如果要通过发掘长尾提高销售额,就必须充分研究用户的兴趣,而这正是个性化推荐系统主要解决的问题。推荐系统通过发掘用户的行为,找到用户的个性化需求,从而将长尾商品准确地推荐给需要他的用户,帮助用户发现那些他们感兴趣但很难发现的商品。

个人总结下上面的一大段话:在互联网上,冷门的商品比实体零售店的商品多很多,所以就有可能造成长尾商品(冷门商品)的销售总额不可忽视,甚至于会超过热门商品的销售总额。因此,我们不能忽视长尾部分的商品,要挖掘长尾商品推荐给用户。

推荐系统常用的技术就是协同过滤技术,其核心思想就是找到用户的相似邻居,这些相似邻居中多数用户都喜欢某一物品的话,就将该物品推荐给该用户。这个过程中,推荐的物品仍然是用户的相似邻居中相对来说比较热门的物品。我们假设:冷门物品是流行度很低的物品,也就是说喜欢该物品的人很少。那么,如果该物品在用户的相似邻居中的流行度还是很低的话,该物品也不会被推荐给用户。所以,一个对于用户的总体来说是流行度很低的物品,如果其在一个小的用户圈中的流行度还是很低,那么该物品仍然无法被推荐给用户。

因此,就协同过滤技术来说,使用协同过滤技术的推荐系统,仍然无法挖掘那些真正冷门的物品(对总体用来说是冷门的,对于一个小的用户圈来说还是冷门的)。那些对于整体用户来说是冷门,但在一个小的用户圈子中却不是冷门的物品(本文称之为“假冷门”),协同过滤的推荐系统是可以推荐给用户的。可以用公式表示如下:

商品的销售量=用户群体*群体流行度

商品的销售量=用户总体*总体流行度

对于总体来说流行度很低的物品,一方面的影响因素是群体规模,一方面是物品在用户群体中的群体流行度。协同过滤是站在用户群体的角度,向用户推荐群体流行度高的物品。这时,(1)如果用户的群体很小,即使成功向用户推荐一个在群体内流行度很高的物品,所带来的价值对于总体销售额来说会很小。我们这么说的前提是:物品的价值不会很大,物品的单价不会是几百万、几千万。(2)如果用户的群体规模不小,那么群体流行度很高的物品的总量也不会太少,因为有用户群体这个基数摆在那是吧。

总的来说,协同过滤的推荐系统不能挖掘真正冷门的物品。一个群体流行度低的物品,仍然不会被推荐给用户。


  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【摘要】 W.eb2.0技术将互联网带入了一个崭新的时代,互联网用户在互联网生活中发挥着越来越主动的作用,用户不再只是被动地从互联网上接受信息,而是主动地创造信息,并利用Web2.0平台与其他用户进行交互和分享。随着互联网用户的飞速增长,以用户为中心的信息生产模式造成了互联网信息的爆炸式增长,人们正面临着越来越严重的“信息过载”问题。“信息过载”问题是指,人们无法从海量的信息中快速准确的定位到自己所需要的信息。目前,解决信息过载问题的技术主要分两类,第一类是以搜索引擎为代表的信息检索技术,第二类是以推荐系统为代表的信息过滤技术。两者最重要的区别在于用户通过搜索引擎获取的信息的质量的好坏在很大程度上依赖于用户对于信息求描述的准确程度,而推荐系统不需要用户提供明确的需求,而是从用户的历史行为和数据中出发,建立相关的模型从而挖掘出用户的需求和兴趣,从而以此为依据从海量的信息中为用户筛选出用户感兴趣的信息。由此可见,在用户需求不明确时,推荐系统的作用显得尤为重要。到目前为止,已经有许多推荐算法被提出,协同过滤是这些算法中应用最多且最为有效的推荐算法。虽然协同过滤算法已经被成功地应用到许多商业推荐系统中,但是仍然存在着诸如数据稀疏问题、冷启动问题等亟待解决。随着互联网的飞速发展,以微博为代表的各种社交媒体纷纷涌现,以用户为中心的社交网站产生了海量的和用户兴趣相关的数据,如何有效的利用这些数据来改进推荐算法的性能已经成为一个重要的研究领域。针对以上关键问题,本文展开了如下几个方面的研究。第一,协同过滤中相似度模型的研究。用户(项目)相似度计算是基于内存的协同过滤算法中最为关键的问题,正负标注信息不对称和数据稀疏性导致了传统的相似度模型不准确从而影响推荐精度。本文针对这两个问题,提出了基于变权重和罚函数的用户相似度模型。实验结果表明,本文提出的算法能够有效缓解上述两个问题,从而提高推荐精度。第二,融合社交网络信息的协同过滤算法研究。丰富的社交网络信息给推荐系统带来的新的机遇也提出了更大的挑战,如何有效地挖掘海量的社交网络信息以提高推荐算法的精度是社交网络推荐系统研究的核心问题。本文基于腾讯微博用户的真实社交网络信息,构建有效的用户相似度模型,并将该相似度模型与基于评价矩阵信息的用户相似度模型相结合,提出了融合社交网络信息的协同过滤算法。实验结果表明,通过融合社交网络信息,数据稀疏问题得到了明显缓解且推荐精度显著提高。第三,基于用户与基于项目的融合协同过滤算法的研究。根据不同的假设,协同算法可以分为基于用户的方法与基于项目的方法。本文研究了两种方法在推荐性能与效果上的本质差别,并在此基础上针对两种方法的优缺点进行模型融合,提出了融合基于用户和基于项目的融合协同过滤算法。实验结果表明,基于用户的方法更擅长于热门推荐而基于项目的方法更擅长于长尾推荐,本文提出的模型融合算法能有效的缓解数据稀疏问题并提高算法精度。第四,协同过滤算法中的全局模型融合与局部模型融合研究。目前存在着许多有效的协同过滤算法(例如基于内存的方法与基于模型的方法、基于用户的方法与基于项目的方法),不同的算都具有各自的优势和缺陷。本文提出了不同的方法对于不同的用户(项目)的适用程度不一致的观点。基于上述观点,本文通过机器学习的方法,自动发现用户(项目)对于各种方法的适应程度,并进行局部模型融合。实验结果表明,局部融合模型比全局融合模型具有更高的推荐精度。 还原 【Abstract】 The fast development of Web2.0technology sparked a new revolution of the in-ternet. Users now play a new role in the world of internet, they take the initiative to generate information instead of simply getting information from the web. As the rapid growth of the users’population, the user-centric information generation mode leads to the exponential growth of the available information in internet, which cause the infor-mation overload problem. The information overload problem refers that people can not quickly and accurately locate the information they need. Currently, the technology to solve information overload problem can be classified into to two categories. The first technology is information retrieval represented by the search engine and the second is information filtering represented by recommender systems. The most important differ-ence between these two technologies is that search engines need queries formatted by the user and recommender systems need no queries. Thus the quality of the results of search engines depend on how users describe their information needs. Recommender systems however, filter out the information that the user is interested in by exploiting users’profile data and historical activities(watching,listening,buying etc.). So, recom-mender systems can play an very important role in the situation that uses’can not tell their information need precisely.Many recommendation algorithms have been proposed by both academia and in-dustry, collaborative filtering is one of the most effective recommendation algorithms. Collaborative filtering algorithm has been successfully applied to many commercial recommender system, but there are still issues such as the data sparsity problem and the cold start problem to be solved. With the rapid rise of social media, user-centric social networking web sites generate vast amounts of data which may reflects users’interests, how to leverage these data to improve the performance of the recommendation algorith-m has become a very hot research area. In view of the above key issues, this dissertation launched a study of the following aspects.First, research on the similarity model of collaborative filtering. User/item simi-larity calculation is the most critical issue in the memory-based collaborative filtering algorithms, sparsity of the rating matrix and unbalance of negative and positive ratings causes inaccurate similarity computation, thus limit the recommendation quality. In this dissertation, we introduce a weighting scheme and a penalty function to address the above issue. Experiment results show that improved similarity model can significantly improve the recommendation accuracy.Second, Integrating social information into collaborative filtering. The rich social information brings great opportunities for recommendation system. How to effectively leverage the abundant social network information to improve the accuracy of recom-mendation systems is the core issue of the research on social recommendation systems. In this dissertation, we build an user similarity model based on Tencent micro-blogging users’ real social network information, and effectively combine the social information based similarity model and the rating information based similarity model. Experiment results show that the proposed approach can effectively ease the data sparsity problem and improve the recommendation quality.Third, combining user-based and item-based collaborative algorithms using stacked regression. Collaborative filtering algorithms can be classified in
近年来,基于图卷积网络(Graph Convolutional Networks,GCN)的推荐系统受到了研究者的广泛关注。GCN是一种基于图结构的神经网络,它可以在图上进行节点分类、节点嵌入等任务,适用于处理具有复杂结构的数据,如社交网络、知识图谱等。 在基于GCN的推荐系统中,用户和物品可以被看作图中的节点,它们之间的交互关系可以被看作图中的边。GCN可以通过对图结构进行卷积操作,有效地捕捉节点之间的关系,从而提高推荐系统的准确性和效率。 具体来说,基于GCN的推荐系统可以分为以下几个步骤: 1. 数据预处理:将用户-物品交互数据转换为图结构,其中用户和物品为图中的节点,交互关系为边。 2. 图嵌入:使用GCN对图进行嵌入,得到节点的低维表示,表示节点之间的相似度。 3. 推荐生成:根据节点的相似度,计算用户对物品的兴趣度,生成推荐列表。 4. 推荐过滤:根据一些规则或限制,过滤推荐列表中的不合适物品,如重复推荐、低质量物品等。 基于GCN的推荐系统具有以下优点: 1. 能够有效地捕捉用户和物品之间的关系,提高推荐的准确性和效率。 2. 能够处理复杂的交互数据,如多模态数据和异构数据。 3. 能够在推荐过程中引入领域知识,提高推荐的个性化程度。 4. 能够进行在线推荐,实现实时推荐的需求。 然而,基于GCN的推荐系统也存在一些挑战和问题,如如何处理长尾物品、如何平衡推荐的新颖性和准确性等。因此,未来的研究需要继续探索这些问题,以提高基于GCN的推荐系统的性能和应用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值