推荐系统实践笔记——第二章_利用用户行为数据

本文介绍了推荐系统中的用户行为分析,包括显性和隐性反馈行为,以及基于邻域的协同过滤算法,如用户CF和物品CF。此外,还探讨了隐语义模型(LFM)及其在处理用户兴趣分类中的应用,以及基于图的模型如PersonalRank算法。通过对MovieLens数据集的实验设计,分析了不同推荐算法的性能和特点。
摘要由CSDN通过智能技术生成

目录

一、用户行为数据简介

二、用户行为分析

三、实验设计

四、基于邻域的算法

五、隐语义模型(参考LiuQQu的博客,版权声明:本文为CSDN博主「LiuQQu」的原创文章)

六、基于图的模型(参考LiuQQu的博客,版权声明:本文为CSDN博主「LiuQQu」的原创文章)


基于用户行为分析的推荐算法是个性化推荐系统的重要算法,学术界一般将这类型的算法称为协同过滤算法

一、用户行为数据简介

用户行为在推荐系统中一般分两种,一种是显性反馈行为,一种是隐性反馈行为。显性反馈行为包括用户明确对物品表示喜好的行为,隐性反馈行为包括那些不能明确反应用户喜好的行为,最具代表性的隐性反馈行为就是页面浏览行为。

二、用户行为分析

互联网数据分布都满足长尾分布,在英文单词的词频研究中发现,将单词的出现频率按照由高到低排列,则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比,很多研究人员发现在行为数据中也蕴含着这种规律。

令fu(k)为对k个物品产生过行为的用户数,令fi(k)为被k个用户产生过行为的物品数。那么,fu(k)和fi(k)都满足长尾分布。

                                                                                  

一般认为,新用户倾向于浏览热门物品,因为他们对网站不熟悉,只能点击首页热门物品,而老用户逐渐开始浏览冷门物品,下图表明用户越活跃,越倾向于浏览冷门的物品。

仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法,包括基于邻域的方法,隐语义模型,基于图的随机游走算法。其中基于邻域的算法包含:

  • 基于用户的协同过滤算法 这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
  • 基于物品的协同过滤算法 这种算法给用户推荐和他之前喜欢物品相似的物品。

具体算法原理及代码见算法原理及代码

三、实验设计

1.数据集

改文章采用的数据集是GroupLens提供的MovieLens数据集(数据集地址),本章选择的是中等大小的数据集,该数据集包括6000多用户对4000多部电影的100万条评分。

2.实验设计

协同过滤算法的离线实验一般如下设计。

首先,将用户的数据集按照均匀分布随机分成M份(本章M=8),挑选一份作为测试集,将剩下的M-1份作为训练集。

然后,在训练集上建立用户兴趣模型&#x

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值