推荐算法python数据集_推荐系统常用数据集

最新推荐文章于 2024-04-11 09:38:27 发布

Soul App

最新推荐文章于 2024-04-11 09:38:27 发布

阅读量1.6k

点赞数

文章标签：推荐算法python数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36368271/article/details/114018737

版权

本文介绍了九个推荐系统数据集，包括MovieLens、Jester、Book-Crossings等，详细阐述了各数据集的特点、评分密度和可用信息，旨在为推荐算法的研究提供资源。

摘要由CSDN通过智能技术生成

ps：对原文有所删减

在这篇博客中，作者介绍了九个数据集，其中一些是推荐系统中常用到的标准数据集，也有一些是非传统意义上的数据集(non-traditional datasets)，作者相信，这些非传统数据集更接近真实场景的数据。

首先，先说明下推荐系统数据中的几个类别：

Item：即我们要推荐的东西，如产品、电影、网页或者一条信息片段

User：对item进行评分以及接受推荐系统推荐的项目的人

Rating：用户对item的偏好的表达。评分可以是二分类的(如喜欢和不喜欢)，也可以是整数(如1到5星)或连续(某个间隔的任何值)。另外，还有一些隐反馈，只记录一个用户是否与一个项目进行了交互。

数据集

MovieLens

MovieLens数据集由GroupLens研究组在 University of Minnesota — 明尼苏达大学(与我们使用数据集无关)中组织的。 MovieLens是电影评分的集合，有各种大小。数据集命名为1M，10M和20M，是因为它们包含1,10和20万个评分。最大的数据集使用约14万用户的数据，并覆盖27,000部电影。除了评分之外，MovieLens数据还包含类似“Western”的流派信息和用户应用的标签，如“over the top”和“Arnold Schwarzenegger”。这些流派标记和标签在构建内容向量方面是有用的。内容向量对项目的信息进行编码，例如颜色，形状，流派或真正的任何其他属性 - 可以是用于基于内容的推荐算法的任何形式。

MovieLens的数据在过去20年中已经由大学的学生以及互联网上的人们进行收集了。 MovieLens有一个网站

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。