推荐系统实践笔记——第二章_利用用户行为数据

最新推荐文章于 2022-08-02 15:46:07 发布

liying700

最新推荐文章于 2022-08-02 15:46:07 发布

阅读量506

点赞数 2

分类专栏：推荐算法文章标签：推荐系统实践推荐算法推荐系统基于邻域算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liying700/article/details/104000406

版权

本文介绍了推荐系统中的用户行为分析，包括显性和隐性反馈行为，以及基于邻域的协同过滤算法，如用户CF和物品CF。此外，还探讨了隐语义模型（LFM）及其在处理用户兴趣分类中的应用，以及基于图的模型如PersonalRank算法。通过对MovieLens数据集的实验设计，分析了不同推荐算法的性能和特点。

摘要由CSDN通过智能技术生成

目录

一、用户行为数据简介

二、用户行为分析

三、实验设计

四、基于邻域的算法

五、隐语义模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）

六、基于图的模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）

基于用户行为分析的推荐算法是个性化推荐系统的重要算法，学术界一般将这类型的算法称为协同过滤算法。

一、用户行为数据简介

用户行为在推荐系统中一般分两种，一种是显性反馈行为，一种是隐性反馈行为。显性反馈行为包括用户明确对物品表示喜好的行为，隐性反馈行为包括那些不能明确反应用户喜好的行为，最具代表性的隐性反馈行为就是页面浏览行为。

二、用户行为分析

互联网数据分布都满足长尾分布，在英文单词的词频研究中发现，将单词的出现频率按照由高到低排列，则每个单词出现的频率和它在热门排行榜中排名的常数次幂成反比，很多研究人员发现在行为数据中也蕴含着这种规律。

令fu(k)为对k个物品产生过行为的用户数，令fi(k)为被k个用户产生过行为的物品数。那么，fu(k)和fi(k)都满足长尾分布。

一般认为，新用户倾向于浏览热门物品，因为他们对网站不熟悉，只能点击首页热门物品，而老用户逐渐开始浏览冷门物品，下图表明用户越活跃，越倾向于浏览冷门的物品。

仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法，包括基于邻域的方法，隐语义模型，基于图的随机游走算法。其中基于邻域的算法包含：

基于用户的协同过滤算法这种算法给用户推荐和他兴趣相似的其他用户喜欢的物品。
基于物品的协同过滤算法这种算法给用户推荐和他之前喜欢物品相似的物品。

具体算法原理及代码见算法原理及代码。

三、实验设计

1.数据集

改文章采用的数据集是GroupLens提供的MovieLens数据集（数据集地址），本章选择的是中等大小的数据集，该数据集包括6000多用户对4000多部电影的100万条评分。

2.实验设计

协同过滤算法的离线实验一般如下设计。

首先，将用户的数据集按照均匀分布随机分成M份（本章M=8），挑选一份作为测试集，将剩下的M-1份作为训练集。

然后，在训练集上建立用户兴趣模型&#x

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐系统实践笔记——第二章_利用用户行为数据

目录一、用户行为数据简介二、用户行为分析三、实验设计四、基于邻域的算法五、隐语义模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）六、基于图的模型（参考LiuQQu的博客，版权声明：本文为CSDN博主「LiuQQu」的原创文章）基于用户行为分析的推荐算法是个性化推荐系统的重要算法，学术界一般将这类型的算法称为协同过滤算法。一、用户...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。