【推荐系统】推荐系统常用数据集

最近在做融合评论信息的推荐系统,找到了许多数据集,就在这里总结一下吧。

 

Retailrocket 商品评论和推荐数据

The dataset consists of three files: a file with behaviour data (events.csv), a file with item properties (item_properties.csv) and a file, which describes category tree (category_tree.csv). The data has been collected from a real-world ecommerce website. It is raw data, i.e. without any content transformations, however, all values are hashed due to confidential issues. The purpose of publishing is to motivate researches in the field of recommender systems with implicit feedback.

 

主要适用于隐式反馈推荐系统

下载地址:https://www.kaggle.com/retailrocket/ecommerce-dataset

 

Million Songs Dataset 百万音乐数据集

 

The Million Song Dataset is also a cluster of complementary datasets contributed by the community:

 

包含多种类型的音乐数据集,适用于带标签的推荐系统

 

下载地址https://labrosa.ee.columbia.edu/millionsong/

 

Yelp 点评网站官方公开数据

包含470万评论和15.6万商家信息,以及相应的商品图片,适用于加入评论元素的推荐系统

下载地址:https://www.yelp.com/dataset

 

Amazon product data

数据集包含了亚马逊各类商品的数据,分为只有评分的数据集和即有评论也有评分的数据集

适用于加入评论元素的推荐系统

下载地址:http://jmcauley.ucsd.edu/data/amazon/

 

Epinions Dataset

包括用户trust关系、用户对item的打分信息、评论信息

下载地址:http://www.trustlet.org/epinions.html

 

 

HetRec2011 Dataset

包括了movielens-2k、delicious-2k和last.fm-2k。

在movielens-2k中,电影的信息更加丰富了,有IMDB和Rotten Tomatoes的信息,具体还有电影对应的genre、director、actor、发行的国家、拍摄的地点、tag信息,当然还有打分信息。

在delicious-2k中,是用户对bookmark(书签)的tag信息。具体包括用户之间的relation、书签的title和url、用户对书签使用的tag。这个数据集适用于tag的推荐。

在last.fm-2k中,是用户收听音乐的信息。具体包括双向的朋友关系、艺术家、用户收听艺术家信息(有weight)、用户对艺术家的tag信息、艺术家tag信息。

适用于加入标签的推荐系统

下载地址:https://grouplens.org/datasets/hetrec-2011/

 

Julian McAuley

Julian McAuley教授实验室发布的一系列数据集,种类非常齐全,炒鸡推荐

适用于融合评论,图片,社交,位置,问答,商品关系等的推荐系统

下载地址:https://cseweb.ucsd.edu/~jmcauley/datasets.html

 

sugar~

 

 

 

 

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值