推荐系统 | 数据集分析

本文记录了一位新手在分析MovieLens数据集过程中的一些笔记,包括文件说明、构造样本数据的经验,以及在处理用户信息、电影信息和评级时的独热编码和正则项的重要性。通过实践,作者发现独热编码对提高预测准确率至关重要,同时正则项能有效防止过拟合。
摘要由CSDN通过智能技术生成

别看了,只是新手的笔记,很多都是错的!


文件说明

这些文件包含大约3,900部电影1,000,209个匿名评级,由2000年加入MovieLens的6,040名MovieLens用户制作。

评级文件说明
用户名:: MovieID ::评级::时间戳
在这里插入图片描述

  • UserID的范围在1到6040之间
  • MovieID的范围在1到3952之间
  • 评级为5星级(仅限全星评级)
  • 时间戳以秒为单位表示,因为时间(2)返回
  • 每个用户至少有20个评级

用户文件说明
用户名::性别::年龄::职业::邮政编码
在这里插入图片描述

  • 性别用男性表示“M”,女性表示“F”

  • 年龄选自以下范围:

    • 1:“18岁以下” * 18:“18-24” * 25:“25-34” * 35:“35-44” * 45:“45-49”
    • 50:“50-55” * 5
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值