目录
点赞私信可获得数据集!
Shopping
Dataset | #User | #Item | #Inteaction | Sparsity | Interaction Type | |
---|---|---|---|---|---|---|
Shopping | Amazon | - | - | - | - | Rating |
Epinions | 116,260 | 41,269 | 188,478 | 99.99% | Rating [1-5] | |
Yelp | 1,968,703 | 209,393 | 8,021,122 | 99.99% | Rating [1-5] | |
Tmall | 963,923 | 2,353,207 | 44,528,127 | 99.99% | Click/Buy | |
DIGINETICA | 600,684 | 184,047 | 993,483 | 99.99% | Click | |
YOOCHOOSE | 9,249,729 | 52,739 | 34,154,697 | 99.99% | Click/Buy | |
Retailrocket | 1,407,580 | 247,085 | 2,756,101 | 99.99% | View/Addtocart/Transaction | |
Ta Feng | 32,266 | 23,812 | 817,741 | 99.89% | Click |
- Amazon: 该数据集包含 Amazon 平台的评论和元数据,包括自 1996 年 5 月至 2014 年 7 月的 1.428 亿条评论。此数据集包括评分数据(rating),产品元数据(descriptions, category information, price, brand 和 image features)以及链接数据( 共同查看/共同购买的关系图)。
- Epinions: 该数据集由 Epinions.com 收集,Epinions 是一个流行的点评网站。
- Yelp: 该数据集由 Yelp.com 收集,Yelp 数据集整合了的 businesses、reviews 和 user data 信息,可用于个人、教育、学术目的。
- Tmall: 该数据集由 Ant Financial Services 提供,它被使用于 IJCAI16 比赛。
- DIGINETICA: 该数据集包含了从电商搜索引擎日志中抽取的用户会话信息,包含匿名的 user IDs, 经过哈希处理的查询、产品说明和元数据, log 尺度缩放的价格、点击、购买等信息。
- YOOCHOOSE: 该数据集由 YOOCHOOSE GmbH 构建,来支持 RecSys Challenge 2015。: 该数据集是从一个真实世界的电子商务网站中收集的。它未经过任何内容相关的处理,但是由于保密的原因,经过了哈希处理。
- Ta Feng: 该数据集包含 2000 年 11 月至 2001 年 2 月的某中国杂货店交易数据。
Advertising
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Advertising | Criteo | - | - | 45,850,617 | - | Click |
Avazu | - | - | 40,428,967 | - | Click [0, 1] | |
iPin You | 12,931,430 | 131 | 15,367,312 | 99.09% | View/Click |
- Criteo: 该数据集由 Criteo 收集,包含了 Criteo 几天内的流量数据。
- Avazu: 该数据集被用于 Avazu 的点击预测比赛。
- iPin You: 该数据集由 iPinYou 提供,包含了三季的 iPinYou 全球 RTB (Real-Time Bidding) Bidding 算法竞赛所使用的训练集和测试集。
Check-in
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Check-in | Foursquare | - | - | - | - | Check-in |
Gowalla | 107,092 | 1,280,969 | 6,442,892 | 99.99% | Check-in |
- Foursquare: 该数据集包含了从纽约和东京收集的约 10 个月的签到。每次入住都附有时间戳、GPS坐标及其语义信息等。
- Gowalla: 该数据集来自一个基于用户定位的社交网站,用户通过签到来共享其位置。数据集包含在 2009 年 2 月至 2010 年 10 月期间的用户的 6,442,890 次签到。
Movies
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Movies | MovieLens | —— | —— | —— | —— | Rating |
Netflix | 480,189 | 17,770 | 100,480,507 | 98.82% | Rating [1-5] | |
Douban | 738,701 | 28 | 2,125,056 | 89.73% | Rating [0,5] |
- MovieLens: 该数据集由 GroupLens Research 收集,是其电影评价网站的评分数据。
- Netflix: 该数据集是 Netflix 大奖赛所使用的官方数据集。
- Douban: 豆瓣是一个允许互联网用户分享有关电影的评论与观点的网站。该数据集包含了 28 部电影的超过两百万条短评。
Music
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Music | LastFM | 1,892 | 17,632 | 92,834 | 99.72% | Click |
LFM-1b | 120,322 | 3,123,496 | 1,088,161,692 | 99.71% | Click | |
Yahoo Music | 1,948,882 | 98,211 | 11,557,943 | 99.99% | Rating [0, 100] |
- LastFM: 该数据集包含了收听来自 Last.fm 在线音乐系统的两千位用户的社交网络、标签和音乐艺术家信息。
- LFM-1b: 该数据集包含超过 12 万名 Last.fm 用户的十亿首音乐收听记录。每条记录都存在艺术家、专辑、曲目名称和时间戳这几个特征。
- Yahoo Music: 该数据集是 Yahoo! 网站音乐社区中用户对各种音乐艺术家的偏爱的快照。
Books
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Books | Book-crossing | 105,284 | 340,557 | 1,149,780 | 99.99% | Rating [0-10] |
- Book-crossing: 该数据集是 Cai-Nicolas Ziegler 在得到了 Humankind Systems 的 CTO Ron Hornbaker 的许可后,使用爬虫从 Book-Crossing 社区中收集的四周的数据(2004 年 8-9 月),包含 278,858 个用户(匿名但具有人口统计信息)对约 271,379 本书的 1,149,780个评分(显式/隐式)。
Games
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Game | Steam | 2,567,538 | 32,135 | 7,793,069 | 99.99% | Buy |
- Steam: 该数据集为 Steam 平台的用户评论和游戏信息,包含 7,793,069 条评论,2,567,538 位用户和 32,135 个游戏。除评论文本外,数据还包括每个评论中用户的游戏时间。
Anime
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Amine | Anime | 73,515 | 11,200 | 7,813,737 | 99.05% | Rating [-1, 1-10] |
- Anime: 该数据集包含 myanimelist.net 的用户偏好信息。每个用户都可以将动漫添加到他们的「已看」列表中并给它一个评分,而该数据集则是这些评分的汇总。
Pictures
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Pictures | 55,187 | 9,911 | 1,445,622 | 99.74% | - |
- Pinterest: 此数据集最初由论文《Learning image and user features for recommendations in social networks》构建,来用于评测内容相关的图片推荐,并在论文《Neural Collaborative Filtering》中被处理。
Jokes
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Jokes | Jester | 73,421 | 101 | 4,136,360 | 44.22% | Rating [-10, 10] |
- Jester: 该数据集包含 Jester Joke 推荐系统中用户对笑话的匿名评分。
Exercises
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Exercises | KDD2010 | - | - | - | - | Rating |
- KDD2010: 该数据集在 KDD Cup 2010 教育数据挖掘挑战赛中发布,包含学生在系统上练习的情况。
Websites
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Websites | Phishing Websites | - | - | 11,055 | - |
- Phishing Websites: 该数据集包含 11,055 个网站的 30 个特征,以及其是否为网络钓鱼网站的标签。网站的特征包括 12 个基于地址栏的特征,6 个基于异常的特征,5 个基于 HTML 和 JavaScript 的特征,以及 7 个基于域的特征。
Adult
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
Adult | Adult | - | - | 32,561 | - | income>=50k [0, 1] |
- Adult: 此数据集由 Barry Becker 从 1994 年的人口普查数据库中提取,该数据库包含人员属性,以及他们是否年收入超过 5 万。
News
Type | Datasets | #User | #Item | #Interaction | Sparsity | Interaction type |
News | MIND | - | - | - | - | Click |
- MIND: 该数据集是一个用于新闻推荐研究的大型数据集。它是从微软新闻网站的匿名行为日志中收集的。 MIND包含了大约16万篇英语新闻文章和超过1500万篇由100万用户产生的印象日志。