Abstract: IMDB电影数据分析练习。
1.项目简介
数据集
包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据
MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用
实践内容
1.什么样题材的电影评分会相对较高(较低)
2.电影时长对评分是否有影响
3.不同年代什么类型电影较受欢迎
4.其他自选角度
2.数据整理步骤
1.构建数据框:理想情况下,把所有数据放入这个数据框中
2.清洗数据:对构建的数据框进行数据清理,它应该具有以下属性:
Each row describes a single object
Each column describes a property of that object
Columns are numeric whenever appropriate
3.探索全局特征:通过直方图,散点图,聚合函数等获得一个数据的全局的了解
4.探索分组特征。通过一些分组操作分析数据集
3.实践
3.1 数据整理与探索
%matplotlib inline import matplotlib.pyplot as plt import pandas as pd import numpy as np #tell pandas to display wide tables as pretty HTML tables pd.set_option('display.width', 500) pd.set_option('display.max_columns', 100) def remove_border(axes=None, top=False, right=False, left=True, bottom=True): """ Minimize chartjunk by stripping out unnecesasry plot borders and axis ticks The top/right/left/bottom keywords toggle whether the corresponding plot border is drawn """