【推荐算法】从零开始做推荐（一）——认识推荐，认识数据

最新推荐文章于 2024-06-13 20:12:13 发布

lechuan_dafo

最新推荐文章于 2024-06-13 20:12:13 发布

阅读量2.7k

点赞数 8

分类专栏：推荐算法文章标签：推荐系统

本文链接：https://blog.csdn.net/qq_34862636/article/details/104928556

版权

本文是推荐系统系列的第一篇，旨在介绍推荐的定义、所需信息以及经典数据集。作者通过分析MovieLens数据集，讨论了推荐系统的核心——用户-项目交互信息。文章还探讨了如何对数据集进行训练集和测试集划分，为后续的推荐算法实践做准备。

摘要由CSDN通过智能技术生成

前言

推荐系统挺有趣的，但对做研究的人来讲上手有很多坑。相比于图像领域数据集、代码公开透明，评价指标高度统一，推荐系统仍处在整合阶段，龙蛇混杂。

本系列打算在推荐系统公开数据集上一步步实现完整推荐，并实现多个经典的推荐算法。由于本人技术、思路上才能有限，因此不能保证所写完全正确，同时也会有自己的疑惑，仅将自己的经验分享给大家，欢迎讨论。
如果你对本系列(未写完，持续更新中)感兴趣，可接以下传送门：
【推荐算法】从零开始做推荐（一）——认识数据
 【推荐算法】从零开始做推荐（二）——推荐系统的评价指标，计算原理与样例
 【推荐算法】从零开始做推荐（三）——传统矩阵分解的TopK推荐实战
 【推荐算法】从零开始做推荐（四）——python Keras框架利用Embedding实现矩阵分解TopK推荐
 【推荐算法】从零开始做推荐（五）——贝叶斯个性化排序矩阵分解 (BPRMF) 推荐实战
 【推荐算法】从零开始做推荐（六）——贝叶斯性化排序矩阵分解 (BPRMF) 的Tensorflow版

推荐需要知道些什么?

从人的思维出发，如果要给任意一个用户u推荐项目，我应该知道什么？

1. 用户u的喜好，我得知道任意一个用户u∈U 的信息。
2. 认识项目i，我得知道任意一个项目i∈I 的信息。
3. 用户u以前喜欢什么项目，我得知道U 与I 的交互信息。

用图来表达：
在这里插入图片描述
这是我们最期望得到三个信息，但理想很丰满，现实很骨感，很多情况下能得到信息往往不是那么全。
对于表1，表2，表3，如果非要去掉一个选谁呢？
去掉表2，主体信息和客体信息，相对而言，主体更为重要。
如果还要去掉一个呢？
去掉表1，必须用户和项目的信息都知道一些，否则无法推荐。
因此，推荐所要的核心信息就是表3，业内有多种叫法：评分矩阵、签到矩阵或点击矩阵等。

经典数据集

之前的介绍是一个抽象的介绍，接下来我们一起来看看真实的数据集长啥样。要说推荐系统里用的最多的数据集，MovieLens肯定能占上名号，以下为其介绍。
在这里插入图片描述
这里我们看MovieLens给出的两个数据集，一个叫MovieLens 1M稍微大一些，另一个叫MovieLens 100K稍微小一些。

MovieLens 1M

进入如下界面，选择红色框框部分进行下载。
在这里插入图片描述
下载完成之后解压，解压完的文件如下图所示。

我平常接触的文件大多为txt,csv，dat接触的不多，但是也能用DF来进行读取。写一个函数，专门用来预览该数据集。

def veiw_data():
    usnames = ['user','gender','age','occupation','zip']
    user = pd.read_table("users.dat",sep = '::',header = None,names = usnames,engine='python')
    itnames = ['item','title','genres']
    item = pd.read_table("movies.dat",sep = '::',header = None,names

最低0.47元/天解锁文章

lechuan_dafo

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
2
评论
【推荐算法】从零开始做推荐（一）——认识推荐，认识数据

前言推荐系统挺有趣的，但对做研究的人来讲上手有很多坑。相比于图像领域数据集、评价指标等高度统一，代码公开透明，推荐系统仍处在整合阶段，龙蛇混杂。在撰写论文的时候，难点不仅在于自己的方法，还在于实现他人的算法进行对比。如果代码不公开，自己实现他人的方法一方面费时费力，另一方面还不知道有没有复现准确。本系列打算在推荐系统公开数据集上一步步实现完整推荐，实现多个经典算法（这一章是矩阵分解）并...
复制链接

扫一扫