用pandas探索Movielens数据集

本文探讨了如何利用pandas库处理 Movielens 数据集,包括查看评价次数最多的20部电影、评分最高的10部电影,以及不同年龄段和性别间的电影评分差异。
摘要由CSDN通过智能技术生成
  1. 数据集:本文用的是Movielens ml-100k.zip
  2. 本文为译文,原文链接
    Let’s begin
    1.数据集情况,
    # u.user文件中为user_id,age,occupation,zip_code,格式如下:
    这里写图片描述
    # u.data文件中为user_id,movie_id,rating,unix_timestamp,格式如下:
    这里写图片描述
    # u.item文件中为movie_id,title, release_date, video_release_date,imdb_url,格式如下:
    这里写图片描述
import pandas as pd
import numpy as np
import matplotlib.pylab as plt 
%matplotlib inline 

# 读入数据
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('u.user', sep='|', names=u_cols,encoding='latin-1')

r_cols = ['user_id', 'movie_id', 'rating', 'unix_timestamp']
ratings = pd.read_csv('u.data', sep='\t', names=r_cols,encoding='latin-1')

m_cols = ['movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url'] 
movies = pd.read_csv('u.item', sep=
  • 6
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值