因为最近要做一些关于推荐系统相关的研究,所以查阅了一些资料,总结一下市面上能用到推荐系统研究方面的常用公开数据集。
作者:张昭 haolexiao
Jester在线笑话评分数据集
这个数据集是Jester这个伯克利专门用来收集数据集的在线笑话网站http://eigentaste.berkeley.edu/,类似于外文的糗事百科,不过更侧重于冷笑话。然后每个笑话展示后用户可以依据好笑程度打分。然后伯克利把这个数据集公开了。数据集地址:
http://eigentaste.berkeley.edu/dataset/
数据集中包含笑话文本本身,用户给不同笑话的打分情况。数据集由少到多分为:
- item Dataset 1: Over 4.1 million continuous ratings (-10.00 to +10.00) of 100 jokes from 73,421 users: collected between April 1999 - May 2003.
- item Dataset 2: Over 1.7 million continuous ratings (-10.00 to +10.00) of 150 jokes from 59,132 users: collected between November 2006 - May 2009.
- item Dataset 2+: