用pandas探索Movielens数据集

最新推荐文章于 2022-07-28 20:24:01 发布

蓁蓁尔

最新推荐文章于 2022-07-28 20:24:01 发布

阅读量1.3w

点赞数 6

分类专栏： python相关文章标签： python movielens pandas

本文链接：https://blog.csdn.net/u013527419/article/details/53264741

版权

本文探讨了如何利用pandas库处理 Movielens 数据集，包括查看评价次数最多的20部电影、评分最高的10部电影，以及不同年龄段和性别间的电影评分差异。

摘要由CSDN通过智能技术生成

数据集：本文用的是Movielens ml-100k.zip
本文为译文，原文链接：
Let’s begin
1.数据集情况，
# u.user文件中为user_id，age，occupation，zip_code，格式如下：

# u.data文件中为user_id，movie_id，rating，unix_timestamp，格式如下：

# u.item文件中为movie_id，title, release_date, video_release_date，imdb_url,格式如下：

import pandas as pd
import numpy as np
import matplotlib.pylab as plt 
%matplotlib inline 

# 读入数据
u_cols = ['user_id', 'age', 'sex', 'occupation', 'zip_code']
users = pd.read_csv('u.user', sep='|', names=u_cols,encoding='latin-1')

r_cols = ['user_id', 'movie_id', 'rating', 'unix_timestamp']
ratings = pd.read_csv('u.data', sep='\t', names=r_cols,encoding='latin-1')

m_cols = ['movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url'] 
movies = pd.read_csv('u.item', sep=

最低0.47元/天解锁文章

蓁蓁尔

关注

6
点赞
踩
31

收藏

觉得还不错? 一键收藏
7
评论
用pandas探索Movielens数据集

数据集：本文用的是Movielens ml-100k.zip本文为译文，原文链接： Let’s begin 1.数据集情况， # u.user文件中为user_id，age，occupation，zip_code，格式如下： # u.data文件中为user_id，movie_id，rating，unix_timestamp，格式如下： # u.item文件中为movie_id，
复制链接

扫一扫

专栏目录