movielens数据集介绍

0 前言

个性化推荐中,电影推荐研究时常使用movielens上的数据集。该网站的数据集主要分两部分,

  • 一是用于推进最新研究进展的数据集。当前最新的是发布于2019年12月份的25M数据集。
  • 二是用于高校、组织科研的数据集。该类数据集按其是否带有标签、时间先后、数据集大小分成6种数据集。

17年前后的学术论文常见的都是使用1M数据集(2003年发布的)以及10M数据集(2009年发布的),如果是做带标签标记的电影推荐一般是tag-genome数据集(2014年发布的)。数据集中的命名ml为movielens缩写。

1 数据集解读-举例

每个数据集除了大致介绍外,其对应位置还有有一个readme文件,是该数据集的详细介绍。

1.1 1M数据集

1M数据集有rating.dat、movies.dat、users.data三份数据集。ratings是6040位用户对3900部电影的评分数据(共计1,000,209)。
在这里插入图片描述

1.1.1 rating文件
rating.dat文件存放的是用户对电影的评分信息,改文件中每条记录形式:UserID::MovieID::Rating::Timestamp,即用户id、电影id、该用户对此电影的评分值、时间戳。

  • 用户id:从1到6040
  • 电影id: 从1到3952
  • rating: 从1-5的整数
    readme文档中介绍该文件中的每个用户至少都有20个评分(即每个用户至少对20部不同电影进行了打分)。但当时,我做的分析,好像并不像官方文档说的这样,并且,数据都有缺失部分。

1.1.2 users.dat文件
users.dat文件存放的是用户的相关信息,包括性别、年龄、职业,该文件中每条记录形式:UserID::Gender::Age::Occupation::Zip-code。

  • 性别(gender)的值为M和F。

  • 年龄(age)分成7组
    在这里插入图片描述

  • 职业(occupation)分成了21中类别
    在这里插入图片描述

1.1.3 movies.dat文件
movies.dat文件存放的是电影的相关信息,该文件中每条记录形式:MovieID::Title::Genres。

  • title是电影“标题”,包括电影名称及发布日期
  • genres是电影类型:包括动作喜剧等18种电影类型
    在这里插入图片描述

1.2 100k数据集

100k数据集有点不同,其用户属性是单独一个文件。另外还有u1到u5五份数据(五折交叉验证,已经给分好了)。

该数据集包括了943位用户对1682部电影的评分信息(总共100,000),评分也是1-5的整数
在这里插入图片描述

1.2.1 100k数据集文件介绍

  • u.data文件包含了100,000条评分信息,每条记录的形式:user id | item id | rating | timestamp.(分隔符是一个tab)
  • u1.base和u1.test是一组训练集和测试集,u1到u5是把u.data分成了5份(用于五折交叉验证实验)。可以通过运行mku.sh重新生成一组u1到u5(原来的会被覆盖)
  • ua和ub是把u.data分成了两份。每一份又分成了训练集和测试集。同样可以通过mku.sh重新生成一组ua和ub
  • mku.sh文件, 每运行一次,就会随机生成一组u1–u5、ua、ub的数据集。(所以非必要不要用,不然每次实验的数据都不一样)

2 python简要分析处理movielens数据集-举例

  • win10 + python3.8
  • jupyter版
  • pycharm版

2.1 100k数据集

2.1.1 粗略查看数据信息

2.1.2 去掉occupation为none的记录
nones = u_user[u_user[‘occupation’] == ‘none’]
u_user = u_user.drop(nones.index)

2.1.3 gender中的m、f映射成0、 1

2.1.4 对age进行分段,映射成7组

2.1.5 occupation字段数值化

2.1.6 zip_code提取前3位

2.1.7 处理好的数据保存,留待后续直接使用
u_user.to_csv(‘D:/d/python/u_result.csv’)

# !/usr/bin/env python
# -*- coding: utf-8 -*-
# __author__ = 'QiuZiXian'  http://blog.csdn.net/qqzhuimengren/   1467288927@qq.com
# @time          :2020/9/14  0:07
# @abstract    :
 
import pandas as pd
 
 
# 粗略查看数据信息
u_data = pd.read_csv('D:/d/python/ml-100k/u.data')
u_genre = pd.read_csv('D:/d/python/ml-100k/u.genre')
u_info = pd.read_csv('D:/d/python/ml-100k/u.info')
#u_item = pd.read_csv('D:/d/python/ml-100k/u.item')
u_occupation = pd.read_csv('D:/d/python/ml-100k/u.occupation')
u_user = pd.read_csv('D:/d/python/ml-100k/u.user')
 
print(u_data.head())
print(u_user.head())
 
 
# 去掉occupation为none的记录
nones = u_user[u_user['occupation'] == 'none']
u_user = u_user.drop(nones.index)
 
# gender中的m、f映射成0、 1
u_user['gender'] = u_user['gender'].map({'M':1, 'F':0})
print(u_user.head())
 
 
# 对age进行分段,映射成7组
def age_map(age):
    if age >= 1 and age <= 7: return 1
    if age >= 8 and age <=16: return 2
    if age >=17 and age <= 29: return 3
    if age >= 30 and age <= 39: return 4
    if age >= 40 and age <= 49: return 5
    if age >= 50 and age <= 59: return 6
    if age >= 60: return 7
 
u_user['age'] = u_user['age'].apply(lambda age : age_map(age))
print(u_user.head())
 
#  occupation字段数值化
def occupations_map(occupation):
    occupations_dict = {'technician': 1,
     'other': 0,
     'writer': 2,
     'executive': 3,
     'administrator': 4,
     'student': 5,
     'lawyer': 6,
     'educator': 7,
     'scientist': 8,
     'entertainment': 9,
     'programmer': 10,
     'librarian': 11,
     'homemaker': 12,
     'artist': 13,
     'engineer': 14,
     'marketing': 15,
     'none': 16,
     'healthcare': 17,
     'retired': 18,
     'salesman': 19,
     'doctor': 20}
    return occupations_dict[occupation]
u_user['occupation'] = u_user['occupation'].apply(lambda occupation : occupations_map(occupation))
print(u_user.head())
#  zip_code提取前3位
u_user['zip_code'] = u_user['zip_code'].apply(lambda zip_code : str(zip_code)[:3])
# 处理好的数据保存,留待后续直接使用
u_user.to_csv('D:/d/python/u_result.csv')
  • 25
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Movielens是一个流行的电影推荐系统数据集,用于评估和研究各种推荐算法的性能。你可以通过以下步骤下载Movielens数据集: 1. 访问Movielens官方网站。在搜索引擎中搜索"movielens数据集",你会找到Movielens网站的链接。 2. 注册一个用户账户。在网站上注册一个账户,提供所需的信息,并且同意网站的条款和条件。 3. 选择要下载的数据集Movielens提供了几个不同版本的数据集,包括100k、1M、10M和20M电影评分数据集。你可以根据需要选择一个适合的数据集。 4. 点击下载按钮。在你选择的数据集页面上,会有一个"下载"或"Download"按钮。点击该按钮开始下载选定的数据集。 5. 等待下载完成。根据你的网络连接速度和数据集的大小,下载可能需要一些时间。请耐心等待并确保你的网络连接稳定。 6. 解压下载的数据集。一旦下载完成,你会得到一个压缩文件(通常是一个ZIP文件)。使用解压缩软件(如WinRAR或7-Zip)将文件解压缩到你选择的目标文件夹中。 7. 导入数据集到相应的环境。你可以将数据集导入到不同的环境中,如Python、R或其他数据分析工具。根据你使用的工具,可能需要使用相应的库或函数来读取数据集。 通过以上步骤,你就可以成功下载Movielens数据集,并开始使用它进行推荐算法的研究或评估。记得仔细阅读Movielens网站上提供的文档和指南,以了解数据集的结构和如何使用它进行推荐系统开发。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深度学习推荐算法

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值