m-1m数据读取

这个数据集来源于GroupLens,包含电影评级、用户信息和电影详细信息。评级文件‘ratings.dat’有用户ID、电影ID、评级和时间戳。用户至少有20个评级,时间戳以秒为单位。用户文件‘users.dat’提供了性别、年龄、职业等人口统计信息。电影文件‘movies.dat’包含电影ID、标题和流派。该数据集适用于推荐系统、用户行为分析和电影偏好研究。
摘要由CSDN通过智能技术生成

数据集

https://grouplens.org/datasets/movielens/
评级文件描述

================================================================================

所有评级都包含在文件“ratings.dat”中,并且在

以下格式:

用户标识::MovieID::评级::时间戳

—userid的取值范围为1 ~ 6040

—MovieIDs的取值范围为1 ~ 3952

  • 5星评级(只提供全星评级)

时间戳(Timestamp)的单位是秒,从time(2)返回的epoch开始。

-每个用户至少有20个评级

用户文件描述

================================================================================

用户信息在“users.dat”文件中,如下

格式:

用户标识:性别:年龄::职业::你的
UserID::Gender::Age::Occupation::Zip-code

所有的人口统计信息都是由用户自愿提供的

未检查准确性。只有提供了一些统计数据的用户

信息包括在这个数据集中。

-“M”表示男性,“F”表示女性

—年龄可以从以下范围中选择:

  • 1:“18岁以下”

  • 18:“18 - 24”

  • 25:“25至34岁”

  • 35:“35-44”

  • 45:“45-49”

  • 50:“50 - 55”

56 * 56:“+”

-从下列选择中选择职业:

  • 0:“其他”或未指定

  • 1:“学术/教育家”

  • 2:“艺术家”

  • 3:“文书/管理”

  • 4:“大学生/研究生”

  • 5:“客服”

  • 6:“医生/保健”

  • 7:“行政/管理”

  • 8:“农民”

  • 9:“家庭主妇”

  • 10:“K-12学生”

  • 11:“律师”

  • 12:“程序员”

  • 13:“退休”

  • 14:“销售/营销”

  • 15:“科学家”

  • 16:“自雇”

  • 17:“技术员/工程师”

  • 18:“商人/工匠”

  • 19:“失业”

  • 20:“作家”

电影文件描述

================================================================================

电影信息在“movies.dat”文件中,如下所示

格式:

MovieID::标题::流派

-标题与IMDB提供的标题相同(包括

年的版本)

-类型是管道分隔的,从以下类型中选择:

*行动

*冒险

*动画

*儿童

*喜剧

*犯罪

*纪录片

*戏剧

*幻想

*黑色

*恐怖

*音乐

*神秘

*浪漫

*科幻

*惊悚片

*战争

*西方

-一些MovieIDs不对应的电影,由于意外的复制

条目和/或测试条目

-电影大多是手工输入的,所以可能存在错误和不一致

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值