[转] 数据挖掘常见数据集

原文网址:http://www.cnblogs.com/suokun/archive/2011/07/06/2099657.html

1. Movielens 电影评分数据

    基本数据描述:包括以下三个数据集:
    a.943个用户对1682个电影的10万条评分
    b.6040个用户对3900个电影的1百万条评分
    c.71567个用户对10681个电影的1千万条评分
    http://www.grouplens.org/

2. Book-Crossing 书籍评分数据

    基本数据描述:包含了278,858个用户对271,379本书籍的1,149,780条评分。该数据集由Cai-Nicolas Ziegler 在2004年8-9月用4周的时间从Book-Crossing社区用网络爬出。
    http://www.informatik.uni-freiburg.de/~cziegler/BX/

3. Jester Joke Data Set 笑话评分集合 

    来自UC Berkeley的Ken Goldberg发布的一个推荐系统使用的数据集。包含关于100个笑话的73,496名用户评分的410万条连续评分。

    http://www.ieor.berkeley.edu/~goldberg/jester-data/

4. Netflix 数据集

    也是电影评分数据集,480,189 个用户,17,770 部电影,100,480,507 条评分记录。与它相比,MovieLens 数据集少了 2 个数量级。它的位置相信会逐渐被 Netflix 数据所替代,这是时代进步的必然结果。

 说明:以上四个均为用户评分数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值