推荐系统第二章-利用用户行为数据

个性化推荐算法通过对用户行为的深度分析,可以给用户带来更好的网站使用体验。
算法设计人员的角度来看,用户行为数据中蕴含着很多不是那么显而易见的规律,而个性化推荐算法的任务就是通过计算机去发现这些规律,从而为产品的设计提供指导,提高用户体验。
协同过滤算法是基于用户行为分析的算法。
解释:用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品。

1用户行为数据简介

用户的行为数据包括显性反馈行为和隐性反馈行为。
显性反馈行为表示用户与网站进行有意识的反馈交互,隐性反馈行为表示用户与网站进行无意识的反馈交互。
用户行为常可用六部分概括:产生行为的用户和行为的对象、行为的种类、产生行为的上下文、行为的内容和权重。

2用户行为分析

2.1用户活跃度和物品流行度的分布

满足PowerLaw的分布,即长尾分布,由Zipf研单词词频时候发现。

2.2用户活跃度和物品流行度的关系

用户越活跃,越倾向于冷门的物品。
仅仅基于用户的行为数据设计的推荐算法称为协同过滤算法。应用最广泛的是基于邻域的方法。而基于邻域的方法主要包含基于用户的协同过滤算法基于物品的协同过滤算法。其他的方法包括隐语义模型和基于图的随机游走算法。

2.3实验设计与算法测评

离线实验
数据集:MovieLens数据集
实验设计:将数据集按照均匀分布随机分成M份,采用留一法进行测试评估。避免过拟合。
评价指标:TopN推荐、覆盖率(发掘长尾的能力)和新颖度(平均流行度度量)。

3基于邻域的算法

3.1基于用户的协同过滤算法

算法概述(实际应用不多)
1找到和目标用户兴趣相似的用户集合
2找到这个集合中的用户喜欢的,且目标用户没有听说过的物品推荐给目标用户。
用户相似度计算公式:Jaccard公式、余弦相似度计算公式。
复杂度:O(|U|*|U|)
用户对物品感兴趣程度:P(u,i)即用户U相关的用户 之间的相似度和对物品i感兴趣的程度的加权和。
结果:推荐结果的各个指标与推荐个数K息息相关。
改进:计算用户兴趣相似度时考虑物品的流行度对提升推荐结果的质量有帮助。

3.2基于物品相似度的协同过滤算法

算法概述(应用广泛)
1计算物品之间的相似度
2根据物品的相似度和用户的历史行为给用户生成推荐列表。
物品相似度计算:首先建立用户-物品倒排表,之后将物品列表中的物品两两在共现矩阵C中加1,之后合并贡献矩阵C,最后将C矩阵归一化可以得到物品之间的余弦相似度矩阵W。
用户对物品的兴趣:和用户历史上感兴趣的物品越相似的物品,越有可能在用户的推荐列表中获得比较高的排名。
结果:推荐结果的各个指标与推荐个数K息息相关。
改进:计算物品相似度时考虑用户的活跃度对提升推荐结果的质量有帮助。倒数+对数+余弦相似度。
改进:归一化物品相似度矩阵W。热门物品类间相似度高,统一相似度量纲后,可提升推荐的多样性。

3.3UserCF和ItemCF比较

UserCF的推荐更加社会化(热门程度+时效性),反应了用户所在小型兴趣群体中物品的热门成都,
ItemCF的推荐更加个性化,反映了用户自己的兴趣传承。(覆盖率与新颖度不高)。
当具体工程应用时,需要考虑:是否需要提供解释,实现的代价,离线指标和在线指标不一定成正比。

4隐语义模型

面临问题
1:如何给物品进行分类
2:如何确定用户对哪些类的物品感兴趣,以及感兴趣的程度。
3:对于给定的一个类,选择哪些属于该类的物品推荐给用户,以及如何确定这些物品在一个类中的权重。
解决方法
隐语义模型、LDA、pLSA、隐含类别模型、隐含主题模型和矩阵分解等。
隐语义模型需要对样本进行采样,生成负样本,应该注意:
对每个用户,要保证正负样本的平衡
对每个用户采负样本时,要选取那些很热门,而用户却没有行为的物品。
类似于聚类并找住类别中比较重要的点。
实验设计
数据集:MovieLens数据集。
预测模型:LFM
预测指标:TopN推荐,覆盖率,流行度

对比内容LFM基于邻域
理论基础建模统计
离线计算的空间复杂度内存消耗大很好节省离线计算内存
离线计算的时间复杂度-没有质的区别--没有质的区别-
在线实时推荐可在线进行实时预测不能进行在线实时预测
推荐解释很好的推荐解释无法提供解释

5基于图的模型

基于随机游走的方式,每个物品结点被访问到的概率会收敛到一个数。最终的推荐列表中物品的权重就是物品节点的访问概率。
在时间复杂度上有明显的缺点。
解决方法:减少迭代次数与转化为矩阵形式。

参考文献
项亮. 推荐系统实践[M]. 人民邮电出版社, 2012.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全性,还是可操作性等各个方面来讲,遇到了互联网时代才发现能补上自古以来的短板,有效的提升管理的效率和业务水平。传统的管理模式,时间越久管理的内容越多,也需要更多的人来对数据进行整理,并且数据的汇总查询方面效率也是极其的低下,并且数据安全方面永远不会保证安全性能。结合数据内容管理的种种缺点,在互联网时代都可以得到有效的补充。结合先进的互联网技术,开发符合需求的软件,让数据内容管理不管是从录入的及时性,查看的及时性还是汇总分析的及时性,都能让正确率达到最高,管理更加的科学和便捷。本次开发的高校科研信息管理系统实现了操作日志管理、字典管理、反馈管理、公告管理、科研成果管理、科研项目管理、通知管理、学术活动管理、学院部门管理、科研人员管理、管理员管理等功能。系统用到了关系型数据库中王者MySql作为系统的数据库,有效的对数据进行安全的存储,有效的备份,对数据可靠性方面得到了保证。并且程序也具备程序需求的所有功能,使得操作性还是安全性都大大提高,让高校科研信息管理系统更能从理念走到现实,确确实实的让人们提升信息处理效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值