MoviesLens数据集介绍

MoviesLens数据集介绍以(ml-20m为例)

主要有以下文件:

ratings.csv和tag.csv中的用户id是一致的。

ratings.csv、tag.csv、movies.csv、link.csv中的用户id是一致的。

ratings.csv评级数据文件

该文件中的行首先按userId排序,然后在user中按movieId排序。

评分采用五星制,以半星递增(0.5星-5.0星)。

时间戳表示自1970年1月1日午夜协调世界时(UTC)起的秒数

tag.csv标记数据文件结构

所有标记都包含在文件“tags.csv”中。文件头行后的每一行代表一个用户应用于一部电影的一个标记,格式如下:

userId,movieId,tag,timestamp

该文件中的行首先按userId排序,然后在user中按movieId排序。

标签是用户生成的关于电影的元数据。每个标签通常是一个单词或短短语。特定标签的意义、价值和用途由每个用户决定。

时间戳表示自1970年1月1日午夜协调世界时(UTC)起的秒数。

Movies.csv电影数据文件结构

电影信息包含在文件“movies.csv”中。文件头行后的每一行代表一部电影,格式如下:

userId,movieId,tag,timestamp

电影标题可以手动输入,也可以从中导入<https://www.themoviedb.org/>,并在括号中包括发布年份。

Genres 是一个管道分隔列表,可从以下选项中选择:

* Action
* Adventure
* Animation
* Children's
* Comedy
* Crime
* Documentary
* Drama
* Fantasy
* Film-Noir
* Horror
* Musical
* Mystery
* Romance
* Sci-Fi
* Thriller
* War
* Western
* (no genres listed)

链接数据文件结构(Links.csv)

文件“links.csv”中包含可用于链接到其他电影数据源的标识符。文件头行后的每一行代表一部电影,格式如下:

movieId,imdbId,tmdbId

movieId是用户使用的电影的标识符<https://movielens.org>. 例如,电影《玩具总动员》中有<https://movielens.org/movies/1>.

imdbId是所使用的电影的标识符<http://www.imdb.com>. 例如,电影《玩具总动员》中有<http://www.imdb.com/title/tt0114709/>.

tmdbId是所使用的电影的标识符<https://www.themoviedb.org>. 例如,电影《玩具总动员》中有<https://www.themoviedb.org/movie/862>.

以上所列资源的使用受各供应商条款的约束。

标记基因组(Genome-scores.csv和Genome tags.csv)

标签基因组是一个数据结构,包含电影标签相关性得分。这个结构是一个密集的矩阵:基因组中的每一部电影都有一个值,对应于基因组中的每一个标签。

如[本文][基因组论文]所述,标签基因组编码电影如何强烈地表现出标签所代表的特殊特性(大气、发人深省、真实等)。使用机器学习算法对用户贡献的内容(包括标签、评分和文本评论)计算标签基因组。

基因组被分成两个文件。“genome scores.csv”文件包含以下格式的电影标签相关数据:

movieId,tagId,relevance

第二个文件“genome tags.csv”提供了genome文件中标签ID的标签描述,格式如下:

tagId,tag

“tagId”值是在导出数据集时生成的,因此它们可能因MovieLens数据集的版本而异。

以上介绍都是README文件中的内容,大家可以去看一下。

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值