推荐系统:MovivLens20M数据集解析

原创 2017年09月22日 10:59:02

          MovieLens 是历史最悠久的推荐系统。它由美国 Minnesota 大学计算机科学与工程学院的 GroupLens 项目组创办,是一个非商业性质的、以研究为目的的实验性站点。MovieLens 主要使用 Collaborative Filtering 和 Association Rules 相结合的技术,向用户推荐他们感兴趣的电影。 

   参考资料:movieLens-百度百科     电影数据集总结                           

          数据集地址:   https://grouplens.org/datasets/movielens/                    

          This dataset (ml-20m) describes 5-star rating and free-text tagging activity from [MovieLens](http://movielens.org), a movie recommendation service. It contains 20000263 ratings and 465564 tag applications across 27278 movies. These data were created by 138493 users between January 09, 1995 and March 31, 2015. This dataset was generated on March 31, 2015, and updated on October 17, 2016 to update links.csv and add genome-* files.

        Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

        The data are contained in six files, `genome-scores.csv`, `genome-tags.csv`, `links.csv`, `movies.csv`, `ratings.csv` and `tags.csv`. More details about the contents and use of all these files follows.

         This and other GroupLens data sets are publicly available for download at <http://grouplens.org/datasets/>.

   此数据集描述了5星之内的电影不受限制的标记,用于给出用户推荐。数据集包含了138493个用户对27278个电影的20000263个评分和465564个标签。此评价收集于19951月到20153月之间,并在20161017日更新为csv格式。

   用户为随机选取,每个选取的用户至少评分20个电影。没有人口统计信息。每个用户只给出一个ID,且不涉及其他私人信息。

 

数据格式

      movieLens20M使用了CSV格式存储数据列表,代替了10M1M100KDAT格式,可以直接可视化分析。

      文件列表:genome_scores.csv、genome-tags.csvlinks.csvmovies.csvratings.csvtags.csv

      movies.csvMovieId+title+geners。以此表示电影ID、电影名称、电影流派/种类。其中电影流派具有多个标签,即可以表示电影的多个属性。

      用以生成电影属性矩阵。

      Rating.csvuserId+movieId+rating+timestamp。分别表示用户ID、电影ID、评分,以及截至时间戳。给出了用户对电影的评分列表。

      用以生成用户-电影评分矩阵。

      Trgs.csv: userId+ movieId+tag+timestamp。分别表示用户ID、电影ID、用户对电影的标签、时间戳。给出了用户对电影的标签列表。

      用以生成用户-电影标签矩阵。??

      Links.csv:moviesId+imdeId+tmdbIdIMDB为互联网电影资料库。tMDB为电影数据集。给出了电影ID和两个数据标记ID的对应关系。

      genome_tags.csv:电影标签 DNA标记,唯一标识符。

      genome_scores.csv: movieId+tagId+relevance。分别表示电影ID、电影标签ID、官方标签相关性。给出了电影的官方标签。

      用以生成电影的标签相关性矩阵。

    

推荐系统领域的数据集

推荐领域数据集 http://www.grouplens.org/taxonomy/term/14 Movielens Dataset:        其中Movielens-1...
  • Maybe2030
  • Maybe2030
  • 2014年09月24日 13:28
  • 5442

【推荐系统】推荐系统常用数据集

Retailrocket 商品评论和推荐数据 The dataset consists of three files: a file with behaviour data (events.csv),...
  • qq_27032425
  • qq_27032425
  • 2017年12月02日 11:19
  • 363

推荐系统研究常用数据库

推荐系统学术研究常用的数据集包括: MovieLens,MovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库,适用于不同规模的算法。小规模的...
  • baoyan2015
  • baoyan2015
  • 2016年12月05日 17:30
  • 1234

推荐系统数据稀疏性问题

对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4...
  • poson
  • poson
  • 2012年05月03日 09:16
  • 11892

《推荐系统实践》附上Reference 中的干货 (Paper,Blog等资料的链接)

《推荐系统实践》这只是一本197页的书,但作者附上了诸多好资料,无论是paper, blog文章,wikipedia词条,数据集还是开源项目等      附上资料链接,格式基本按照‘URL+资...
  • qq_33363973
  • qq_33363973
  • 2017年09月27日 14:37
  • 434

用MovieLens数据集做推荐(Python推荐系统二)

思路:下载MovieLens的数据集,对数据集进行函数定义,定义各数据列的名称,根据上一篇Python写出简单的推荐系统(一) 文中的recommendations.py 的用户相似度进行推荐。  ...
  • luzuiwutong
  • luzuiwutong
  • 2015年01月14日 22:02
  • 10388

【分享】Netflix完整竞赛数据集

The movie rating files contain over 100 million ratings from 480 thousand randomly-chosen, anonymous...
  • tianshi_1105
  • tianshi_1105
  • 2014年01月02日 14:01
  • 2849

推荐系统数据集

http://www.grouplens.org/taxonomy/term/14Movielens Dataset: 其中Movielens-100k和movielens-1M有用户对电影的打分...
  • qq_31955775
  • qq_31955775
  • 2017年11月15日 10:42
  • 94

最简单的推荐系统实践

参考网络上的部分资料,做了个最简单的推荐系统的demo实例。 我们将使用MovieLens数据集,它是在实现和测试推荐引擎时所使用的最常见的数据集之一,包含来自943个用户以及精选的1682部电影的...
  • bitcarmanlee
  • bitcarmanlee
  • 2016年09月27日 21:13
  • 3380

百度开放研究社区-电影推荐系统算法创新大赛

关于竞赛 TASKS 参赛对象: 本次大赛主要面向国内高等院校的高年级本科生和硕士,博士研究生,以及相关的从业人员,旨在通过竞赛激发更高的技术和应用创新能力,着力使百度为用户提供更好的搜索体验增...
  • shaoqiangfan
  • shaoqiangfan
  • 2013年03月13日 19:34
  • 2298
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:推荐系统:MovivLens20M数据集解析
举报原因:
原因补充:

(最多只允许输入30个字)