推荐系统:MovivLens20M数据集解析

原创 2017年09月22日 10:59:02

          MovieLens 是历史最悠久的推荐系统。它由美国 Minnesota 大学计算机科学与工程学院的 GroupLens 项目组创办,是一个非商业性质的、以研究为目的的实验性站点。MovieLens 主要使用 Collaborative Filtering 和 Association Rules 相结合的技术,向用户推荐他们感兴趣的电影。 

   参考资料:movieLens-百度百科     电影数据集总结                           

          数据集地址:   https://grouplens.org/datasets/movielens/                    

          This dataset (ml-20m) describes 5-star rating and free-text tagging activity from [MovieLens](http://movielens.org), a movie recommendation service. It contains 20000263 ratings and 465564 tag applications across 27278 movies. These data were created by 138493 users between January 09, 1995 and March 31, 2015. This dataset was generated on March 31, 2015, and updated on October 17, 2016 to update links.csv and add genome-* files.

        Users were selected at random for inclusion. All selected users had rated at least 20 movies. No demographic information is included. Each user is represented by an id, and no other information is provided.

        The data are contained in six files, `genome-scores.csv`, `genome-tags.csv`, `links.csv`, `movies.csv`, `ratings.csv` and `tags.csv`. More details about the contents and use of all these files follows.

         This and other GroupLens data sets are publicly available for download at <http://grouplens.org/datasets/>.

   此数据集描述了5星之内的电影不受限制的标记,用于给出用户推荐。数据集包含了138493个用户对27278个电影的20000263个评分和465564个标签。此评价收集于19951月到20153月之间,并在20161017日更新为csv格式。

   用户为随机选取,每个选取的用户至少评分20个电影。没有人口统计信息。每个用户只给出一个ID,且不涉及其他私人信息。

 

数据格式

      movieLens20M使用了CSV格式存储数据列表,代替了10M1M100KDAT格式,可以直接可视化分析。

      文件列表:genome_scores.csv、genome-tags.csvlinks.csvmovies.csvratings.csvtags.csv

      movies.csvMovieId+title+geners。以此表示电影ID、电影名称、电影流派/种类。其中电影流派具有多个标签,即可以表示电影的多个属性。

      用以生成电影属性矩阵。

      Rating.csvuserId+movieId+rating+timestamp。分别表示用户ID、电影ID、评分,以及截至时间戳。给出了用户对电影的评分列表。

      用以生成用户-电影评分矩阵。

      Trgs.csv: userId+ movieId+tag+timestamp。分别表示用户ID、电影ID、用户对电影的标签、时间戳。给出了用户对电影的标签列表。

      用以生成用户-电影标签矩阵。??

      Links.csv:moviesId+imdeId+tmdbIdIMDB为互联网电影资料库。tMDB为电影数据集。给出了电影ID和两个数据标记ID的对应关系。

      genome_tags.csv:电影标签 DNA标记,唯一标识符。

      genome_scores.csv: movieId+tagId+relevance。分别表示电影ID、电影标签ID、官方标签相关性。给出了电影的官方标签。

      用以生成电影的标签相关性矩阵。

    

基于spark的电影推荐系统数据集

  • 2015年05月27日 19:39
  • 5.66MB
  • 下载

推荐系统movie数据集

  • 2017年01月19日 20:56
  • 5.64MB
  • 下载

推荐系统常用数据集

转自http://www.cnblogs.com/zz-boy/archive/2012/08/27/2658063.html 推荐系统常用的: 1)MovieLens MovieLens数据...
  • shulixu
  • shulixu
  • 2017年05月14日 16:49
  • 649

推荐系统实践MovieLens数据集

  • 2017年07月18日 11:00
  • 10.4MB
  • 下载

推荐系统数据集

  • 2017年06月14日 09:28
  • 40.41MB
  • 下载

推荐系统-基于用户的最近邻协同过滤算法(MovieLens数据集)

基于用户的最近邻算法(User-Based Neighbor Algorithms),是一种非概率性的协同过滤算法,也是推荐系统中最最古老,最著名的算法。 我们称那些兴趣相似的用户为邻居,如果用...

推荐系统常用数据集

《推荐系统常用数据集(点击进入)》推荐系统常用数据集推荐系统常用的:1)MovieLensMovieLens数据集中,用户对自己看过的电影进行评分,分值为1~5。MovieLens包括两个不同大小的库...
  • lql0716
  • lql0716
  • 2016年08月08日 17:47
  • 4731

推荐系统研究相关的数据集

因为最近要做一些关于推荐系统相关的研究,所以查阅了一些资料,总结一下市面上能用到推荐系统研究方面的常用公开数据集。 作者:张昭 haolexiaoJester在线笑话评分数据集这个数据集是Jester...

用MovieLens数据集做推荐(Python推荐系统二)

思路:下载MovieLens的数据集,对数据集进行函数定义,定义各数据列的名称,根据上一篇Python写出简单的推荐系统(一) 文中的recommendations.py 的用户相似度进行推荐。  ...

推荐系统系列---基于movielens数据集的KNN算法与矩阵分解算法比较

理论部分 1. 隐因子模型的推荐算法:使用奇异值分解或者随机梯度下降等方法将用户的评分矩阵分解为用户和产品的特征矩阵 ; 2. 提出一种对推荐效果新的评估方法: 3.Movielens 数据集: (...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:推荐系统:MovivLens20M数据集解析
举报原因:
原因补充:

(最多只允许输入30个字)