推荐系统常用数据集

最新推荐文章于 2024-08-08 10:41:16 发布

上下求索～

最新推荐文章于 2024-08-08 10:41:16 发布

阅读量3.4k

点赞数 3

首先需要说明一下推荐系统数据中的几个类别：

Item：即我们要推荐的东西，如产品、电影、网页或者一条信息片段

User：对item进行评分以及接受推荐系统推荐的项目的人

Rating：用户对item的偏好的表达。评分可以是二分类的（如喜欢和不喜欢），也可以是整数（如1到5星）或连续（某个间隔的任何值）。另外，还有一些隐反馈，只记录一个用户是否与一个项目进行了交互。

1、Movielens Dataset：【数据地址：https://grouplens.org/datasets/movielens/】（1M、10M、20M 共三个数据集）

其中Movielens-100k和movielens-1M有用户对电影的打分，电影的title、genre、IMDB链接、用户的gender、age、occupation、zip code。movielens-10M中还有用户对电影使用的tag信息。

2、HetRec2011 Dataset：包括了movielens-2k、delicious-2k和last.fm-2k。

在movielens-2k中，电影的信息更加丰富了，有IMDB和Rotten Tomatoes的信息，具体还有电影对应的genre、director、actor、发行的国家、拍摄的地点、tag信息，当然还有打分信息。

在delicious-2k中，是用户对bookmark（书签）的tag信息。具体包括用户之间的relation、书签的title和url、用户对书签使用的tag。这个数据集适用于tag的推荐。

在last.fm-2k中，是用户收听音乐的信息。具体包括双向的朋友关系、艺术家、用户收听艺术家信息（有weight）、用户对艺术家的tag信息、艺术家tag信息。

3、Wikilens Dataset

BookCrossing Dataset: 用户对书的打分信息，用户城市、用户年龄、书在Amazon的信息及url。

4、Jester 【数据地址：http://eigentaste.berkeley.edu/dataset/】

　　Jester是由Ken Goldberg和他在加州大学伯克利分校的小组发展的，包含150个笑话大约600万的评分。像MovieLens一样，Jester评分由互联网上的用户提供。与其他数据集相比，Jester有两个方面是特殊的：它使用-10到10的连续等级，并且在量级上具有最高的评分密度。评分密度的意思是大概“平均每个用户评价多少个项目”？如果每个用户都对每个项目进行了评分，那么评级密度将为100％。如果没有人评价过任何东西，那将是0％。 Jester的密度约为30％，这意味着一个用户平均对30％的笑话进行了评分。作为比较，MovieLens 1M的密度为4.6％（其他数据集的密度低于1％）。当然不是那么简单。不是每个用户都评价相同数量的项目。相反，一些用户对许多项目进行评分，大多数用户只评价一些。

5、 Book-Crossings 【数据地址：http://www2.informatik.uni-freiburg.de/~cziegler/BX/】

　　Book-Crossings是由Cai-Nicolas Ziegler根据 bookcrossing.com 的数据编写的图书评分数据集。它包含90000个用户的270000本书的110万个评分。评分范围从1到10，包括显式和隐式的评分。Book-Crossings数据集是最不密集的数据集之一，也是具有明确评分的最不密集的数据集。

6、 Last.fm 【数据地址：https://grouplens.org/datasets/hetrec-2011/】

　　Last.fm提供音乐推荐的数据集。对于数据集中的每个用户，包含他们最受欢迎的艺术家的列表以及播放次数。它还包括可用于构建内容向量的用户应用标签。Last.fm的数据聚合aggregated）后，有些信息（关于特定的歌曲，或某人正在听音乐的时间）会丢失。然而，它是这些样本中唯一具有用户的社交网络的信息的数据集。

7、 Wikipedia 【数据地址：https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia】

　　维基百科是其用户撰写的协作百科全书。维基百科除了为最后一刻拼写学期论文的学生提供信息外，还为每个用户提供每篇文章的每个编辑的数据转储。该数据集已广泛用于社交网络分析，图形和数据库实现测试，以及维基百科用户行为研究。还可以将用户采取的编辑操作，作为隐性评分，表明他们因某些原因关心该页面，并允许我们使用数据集来提出推荐。

　　由于维基百科不是为了提供推荐者数据集而设计的，所以它确实存在一些挑战。其中一个是从页面中提取有意义的内容向量，但是幸运的是，大多数页面被很好地分类，为每个页面提供了一种类型。构建维基百科的内容向量的挑战与现实世界数据集的推荐面临的挑战相似。所以我们认为这是建立一些这样做的专门知识的好机会。

8、OpenStreetMap 【数据地址：http://planet.openstreetmap.org/planet/full-history/】

　　OpenStreetMap是一个协作的地图项目，类似于维基百科。像维基百科一样，OpenStreetMap的数据由用户提供，整个编辑历史的完整转储也是可用的。数据集中的对象包括道路，建筑物，兴趣点，以及您可能在地图上找到的任何其他内容。这些对象由键值对标识，因此可以从中创建一个基本的内容向量。然而，键值对是自由的，所以选择正确的设置是一个挑战。一些键值对由编辑软件（例如“highway =住宅”）进行标准化和相同的使用，但通常它们可以是用户决定进入的任何内容 - 例如“FixMe !! = Exact location unknown”。

9、 Python Git Repositories

　　收集的最终数据集，也许最不传统的，基于Git存储库中包含的Python代码。我们写了几个脚本（在Hermes GitHub repo中在此获取）从互联网上下载存储库，提取其中的信息，并将其加载到Spark中。从那里我们可以从用户编辑中构建一组隐含的评分。目前通过查看所有导入的库并调用函数从每个Python文件中提取内容向量。将来我们计划将库和函数本身作为建议的项目。

Flixster Dataset: 用户对电影的打分以及用户的friendship信息。 http://www.sfu.ca/~sja25/datasets/

Epinions Dataset: 包括用户trust关系、用户对item的打分信息、评论信息。 http://www.trustlet.org/wiki/Epinions_datasets

Yelp Dataset: https://www.yelp.com/academic_dataset

Bibsonomy Dataset: 与delicious类似。http://www.kde.cs.uni-kassel.de/bibsonomy/dumps

Foursquare Dataset：Location-based 推荐。http://www.public.asu.edu/~hgao16/dataset.html

Epinions and Ciao Dataset：http://www.public.asu.edu/~jtang20/datasetcode/truststudy.htm

另外还有一些社交网络分析的数据集

http://snap.stanford.edu/na09/resources.html

http://snap.stanford.edu/data/

一些数据集的比较：

10、 Datasets For recommender system 博客中总结提供的数据集

Amazon Product Data:

Amazon product data link
SNAP snap

Mobile Recommendation:

Data Set for Mobile App Retrieval link
frappe link
Ali_Mobile_Rec link1 ; link2
Mobile App User Dataset link

Movies Recommendation:

MovieLens - Movie Recommendation Data Sets link
Yahoo! - Movie, Music, and Images Ratings Data Sets link
Cornell University - Movie-review data for use in sentiment-analysis experiments link
Netflix Prize Dataset link
MovieTweetings - link

Joke Recommendation: