RecSys Datasets 推荐系统实验常用数据集大全

目录

Shopping

Advertising

Check-in

Movies

Music

Books

Games

Anime

Pictures

Jokes

Exercises

Websites

Adult

News


点赞私信可获得数据集!

Shopping

Dataset#User#Item#InteactionSparsityInteraction Type
ShoppingAmazon----Rating
Epinions116,26041,269188,47899.99%Rating [1-5]
Yelp1,968,703209,3938,021,12299.99%Rating [1-5]
Tmall963,9232,353,20744,528,12799.99%Click/Buy
DIGINETICA600,684184,047993,48399.99%Click
YOOCHOOSE9,249,72952,73934,154,69799.99%Click/Buy
Retailrocket1,407,580247,0852,756,10199.99%View/Addtocart/Transaction
Ta Feng32,26623,812817,74199.89%Click
  • Amazon: 该数据集包含 Amazon 平台的评论和元数据,包括自 1996 年 5 月至 2014 年 7 月的 1.428 亿条评论。此数据集包括评分数据(rating),产品元数据(descriptions, category information, price, brand 和 image features)以及链接数据( 共同查看/共同购买的关系图)。
  • Epinions: 该数据集由 Epinions.com 收集,Epinions 是一个流行的点评网站。
  • Yelp: 该数据集由 Yelp.com 收集,Yelp 数据集整合了的 businesses、reviews 和 user data 信息,可用于个人、教育、学术目的。
  • Tmall: 该数据集由 Ant Financial Services 提供,它被使用于 IJCAI16 比赛。
  • DIGINETICA: 该数据集包含了从电商搜索引擎日志中抽取的用户会话信息,包含匿名的 user IDs, 经过哈希处理的查询、产品说明和元数据, log 尺度缩放的价格、点击、购买等信息。
  • YOOCHOOSE: 该数据集由 YOOCHOOSE GmbH 构建,来支持 RecSys Challenge 2015。: 该数据集是从一个真实世界的电子商务网站中收集的。它未经过任何内容相关的处理,但是由于保密的原因,经过了哈希处理。
  • Ta Feng: 该数据集包含 2000 年 11 月至 2001 年 2 月的某中国杂货店交易数据。

Advertising

TypeDatasets#User#Item#InteractionSparsityInteraction type
AdvertisingCriteo--45,850,617-Click
Avazu--40,428,967-Click [0, 1]
iPin You12,931,43013115,367,31299.09%View/Click
  • Criteo: 该数据集由 Criteo 收集,包含了 Criteo 几天内的流量数据。
  • Avazu: 该数据集被用于 Avazu 的点击预测比赛。
  • iPin You: 该数据集由 iPinYou 提供,包含了三季的 iPinYou 全球 RTB (Real-Time Bidding) Bidding 算法竞赛所使用的训练集和测试集。

Check-in

TypeDatasets#User#Item#InteractionSparsityInteraction type
Check-inFoursquare----Check-in
Gowalla107,0921,280,9696,442,89299.99%Check-in
  • Foursquare: 该数据集包含了从纽约和东京收集的约 10 个月的签到。每次入住都附有时间戳、GPS坐标及其语义信息等。
  • Gowalla: 该数据集来自一个基于用户定位的社交网站,用户通过签到来共享其位置。数据集包含在 2009 年 2 月至 2010 年 10 月期间的用户的 6,442,890 次签到。

Movies

TypeDatasets#User#Item#InteractionSparsityInteraction type
MoviesMovieLens————————Rating
Netflix480,18917,770100,480,50798.82%Rating [1-5]
Douban738,701282,125,05689.73%Rating [0,5]
  • MovieLens: 该数据集由 GroupLens Research 收集,是其电影评价网站的评分数据。
  • Netflix: 该数据集是 Netflix 大奖赛所使用的官方数据集。
  • Douban: 豆瓣是一个允许互联网用户分享有关电影的评论与观点的网站。该数据集包含了 28 部电影的超过两百万条短评。

Music

TypeDatasets#User#Item#InteractionSparsityInteraction type
MusicLastFM1,89217,63292,83499.72%Click
LFM-1b120,3223,123,4961,088,161,69299.71%Click
Yahoo Music1,948,88298,21111,557,94399.99%Rating [0, 100]
  • LastFM: 该数据集包含了收听来自 Last.fm 在线音乐系统的两千位用户的社交网络、标签和音乐艺术家信息。
  • LFM-1b: 该数据集包含超过 12 万名 Last.fm 用户的十亿首音乐收听记录。每条记录都存在艺术家、专辑、曲目名称和时间戳这几个特征。
  • Yahoo Music: 该数据集是 Yahoo! 网站音乐社区中用户对各种音乐艺术家的偏爱的快照。

Books

TypeDatasets#User#Item#InteractionSparsityInteraction type
BooksBook-crossing105,284340,5571,149,78099.99%Rating [0-10]
  • Book-crossing: 该数据集是 Cai-Nicolas Ziegler 在得到了 Humankind Systems 的 CTO Ron Hornbaker 的许可后,使用爬虫从 Book-Crossing 社区中收集的四周的数据(2004 年 8-9 月),包含 278,858 个用户(匿名但具有人口统计信息)对约 271,379 本书的 1,149,780个评分(显式/隐式)。

Games

TypeDatasets#User#Item#InteractionSparsityInteraction type
GameSteam2,567,53832,1357,793,06999.99%Buy
  • Steam: 该数据集为 Steam 平台的用户评论和游戏信息,包含 7,793,069 条评论,2,567,538 位用户和 32,135 个游戏。除评论文本外,数据还包括每个评论中用户的游戏时间。

Anime

TypeDatasets#User#Item#InteractionSparsityInteraction type
AmineAnime73,51511,2007,813,73799.05%Rating [-1, 1-10]
  • Anime: 该数据集包含 myanimelist.net 的用户偏好信息。每个用户都可以将动漫添加到他们的「已看」列表中并给它一个评分,而该数据集则是这些评分的汇总。

Pictures

TypeDatasets#User#Item#InteractionSparsityInteraction type
PicturesPinterest55,1879,9111,445,62299.74%-
  • Pinterest: 此数据集最初由论文《Learning image and user features for recommendations in social networks》构建,来用于评测内容相关的图片推荐,并在论文《Neural Collaborative Filtering》中被处理。

Jokes

TypeDatasets#User#Item#InteractionSparsityInteraction type
JokesJester73,4211014,136,36044.22%Rating [-10, 10]
  • Jester: 该数据集包含 Jester Joke 推荐系统中用户对笑话的匿名评分。

Exercises

TypeDatasets#User#Item#InteractionSparsityInteraction type
ExercisesKDD2010----Rating
  • KDD2010: 该数据集在 KDD Cup 2010 教育数据挖掘挑战赛中发布,包含学生在系统上练习的情况。

Websites

TypeDatasets#User#Item#InteractionSparsityInteraction type
WebsitesPhishing Websites--11,055-
  • Phishing Websites: 该数据集包含 11,055 个网站的 30 个特征,以及其是否为网络钓鱼网站的标签。网站的特征包括 12 个基于地址栏的特征,6 个基于异常的特征,5 个基于 HTML 和 JavaScript 的特征,以及 7 个基于域的特征。

Adult

TypeDatasets#User#Item#InteractionSparsityInteraction type
AdultAdult--32,561-income>=50k [0, 1]
  • Adult: 此数据集由 Barry Becker 从 1994 年的人口普查数据库中提取,该数据库包含人员属性,以及他们是否年收入超过 5 万。

News

TypeDatasets#User#Item#InteractionSparsityInteraction type
NewsMIND----Click
  • MIND: 该数据集是一个用于新闻推荐研究的大型数据集。它是从微软新闻网站的匿名行为日志中收集的。 MIND包含了大约16万篇英语新闻文章和超过1500万篇由100万用户产生的印象日志。

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值