RecSys Datasets 推荐系统实验常用数据集大全

最新推荐文章于 2025-05-08 20:19:02 发布

推荐算法研究僧

最新推荐文章于 2025-05-08 20:19:02 发布

阅读量4.2k

点赞数 58

分类专栏：推荐系统文章标签： python 深度学习算法

本文链接：https://blog.csdn.net/harleyrecsys/article/details/126735294

版权

推荐系统专栏收录该内容

2 篇文章

订阅专栏

点赞私信可获得数据集！

Shopping

	Dataset	#User	#Item	#Inteaction	Sparsity	Interaction Type
Shopping	Amazon	-	-	-	-	Rating
	Epinions	116,260	41,269	188,478	99.99%	Rating [1-5]
	Yelp	1,968,703	209,393	8,021,122	99.99%	Rating [1-5]
	Tmall	963,923	2,353,207	44,528,127	99.99%	Click/Buy
	DIGINETICA	600,684	184,047	993,483	99.99%	Click
	YOOCHOOSE	9,249,729	52,739	34,154,697	99.99%	Click/Buy
	Retailrocket	1,407,580	247,085	2,756,101	99.99%	View/Addtocart/Transaction
	Ta Feng	32,266	23,812	817,741	99.89%	Click

Amazon: 该数据集包含 Amazon 平台的评论和元数据，包括自 1996 年 5 月至 2014 年 7 月的 1.428 亿条评论。此数据集包括评分数据（rating），产品元数据（descriptions, category information, price, brand 和 image features）以及链接数据（共同查看/共同购买的关系图）。
Epinions: 该数据集由 Epinions.com 收集，Epinions 是一个流行的点评网站。
Yelp: 该数据集由 Yelp.com 收集，Yelp 数据集整合了的 businesses、reviews 和 user data 信息，可用于个人、教育、学术目的。
Tmall: 该数据集由 Ant Financial Services 提供，它被使用于 IJCAI16 比赛。
DIGINETICA: 该数据集包含了从电商搜索引擎日志中抽取的用户会话信息，包含匿名的 user IDs, 经过哈希处理的查询、产品说明和元数据, log 尺度缩放的价格、点击、购买等信息。
YOOCHOOSE: 该数据集由 YOOCHOOSE GmbH 构建，来支持 RecSys Challenge 2015。: 该数据集是从一个真实世界的电子商务网站中收集的。它未经过任何内容相关的处理，但是由于保密的原因，经过了哈希处理。
Ta Feng: 该数据集包含 2000 年 11 月至 2001 年 2 月的某中国杂货店交易数据。

Advertising

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Advertising	Criteo	-	-	45,850,617	-	Click
	Avazu	-	-	40,428,967	-	Click [0, 1]
	iPin You	12,931,430	131	15,367,312	99.09%	View/Click

Criteo: 该数据集由 Criteo 收集，包含了 Criteo 几天内的流量数据。
Avazu: 该数据集被用于 Avazu 的点击预测比赛。
iPin You: 该数据集由 iPinYou 提供，包含了三季的 iPinYou 全球 RTB (Real-Time Bidding) Bidding 算法竞赛所使用的训练集和测试集。

Check-in

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Check-in	Foursquare	-	-	-	-	Check-in
Check-in	Gowalla	107,092	1,280,969	6,442,892	99.99%	Check-in

Foursquare: 该数据集包含了从纽约和东京收集的约 10 个月的签到。每次入住都附有时间戳、GPS坐标及其语义信息等。
Gowalla: 该数据集来自一个基于用户定位的社交网站，用户通过签到来共享其位置。数据集包含在 2009 年 2 月至 2010 年 10 月期间的用户的 6,442,890 次签到。

Movies

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Movies	MovieLens	——	——	——	——	Rating
	Netflix	480,189	17,770	100,480,507	98.82%	Rating [1-5]
	Douban	738,701	28	2,125,056	89.73%	Rating [0,5]

MovieLens: 该数据集由 GroupLens Research 收集，是其电影评价网站的评分数据。
Netflix: 该数据集是 Netflix 大奖赛所使用的官方数据集。
Douban: 豆瓣是一个允许互联网用户分享有关电影的评论与观点的网站。该数据集包含了 28 部电影的超过两百万条短评。

Music

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Music	LastFM	1,892	17,632	92,834	99.72%	Click
	LFM-1b	120,322	3,123,496	1,088,161,692	99.71%	Click
	Yahoo Music	1,948,882	98,211	11,557,943	99.99%	Rating [0, 100]

LastFM: 该数据集包含了收听来自 Last.fm 在线音乐系统的两千位用户的社交网络、标签和音乐艺术家信息。
LFM-1b: 该数据集包含超过 12 万名 Last.fm 用户的十亿首音乐收听记录。每条记录都存在艺术家、专辑、曲目名称和时间戳这几个特征。
Yahoo Music: 该数据集是 Yahoo! 网站音乐社区中用户对各种音乐艺术家的偏爱的快照。

Books

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Books	Book-crossing	105,284	340,557	1,149,780	99.99%	Rating [0-10]

Book-crossing: 该数据集是 Cai-Nicolas Ziegler 在得到了 Humankind Systems 的 CTO Ron Hornbaker 的许可后，使用爬虫从 Book-Crossing 社区中收集的四周的数据（2004 年 8-9 月），包含 278,858 个用户（匿名但具有人口统计信息）对约 271,379 本书的 1,149,780个评分（显式/隐式）。

Games

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Game	Steam	2,567,538	32,135	7,793,069	99.99%	Buy

Steam: 该数据集为 Steam 平台的用户评论和游戏信息，包含 7,793,069 条评论，2,567,538 位用户和 32,135 个游戏。除评论文本外，数据还包括每个评论中用户的游戏时间。

Anime

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Amine	Anime	73,515	11,200	7,813,737	99.05%	Rating [-1, 1-10]

Anime: 该数据集包含 myanimelist.net 的用户偏好信息。每个用户都可以将动漫添加到他们的「已看」列表中并给它一个评分，而该数据集则是这些评分的汇总。

Pictures

Type	Datasets	#User	#Item	#Interaction	Sparsity	Interaction type
Pictures	Pinterest	55,187	9,911	1,445,622	99.74%	-

Pinterest: 此数据集最初由论文《Learning image and user features for recommendations in social networks》构建，来用于评测内容相关的图片推荐，并在论文《Neural Collaborative Filtering》中被处理。