IMDB电影数据分析实践

最新推荐文章于 2024-02-23 13:34:00 发布

Florida20

最新推荐文章于 2024-02-23 13:34:00 发布

阅读量6.6k

点赞数 7

分类专栏：人工智能数据挖掘和分析文章标签：数据分析

本文链接：https://blog.csdn.net/scarlettyellow/article/details/80458768

版权

本文介绍了使用IMDB和MovieLens数据集进行电影数据分析的实践，包括数据整理、探索和分析。通过对电影题材、时长、年代和类型的探索，揭示了影响评分和受欢迎程度的因素。同时，分享了数据清洗和构建数据框的步骤，以及如何利用直方图和散点图进行数据探索。

摘要由CSDN通过智能技术生成

Abstract: IMDB电影数据分析练习。

1.项目简介

数据集

包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据
MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用

实践内容

1.什么样题材的电影评分会相对较高（较低）
2.电影时长对评分是否有影响
3.不同年代什么类型电影较受欢迎
4.其他自选角度

2.数据整理步骤

1.构建数据框：理想情况下，把所有数据放入这个数据框中

2.清洗数据：对构建的数据框进行数据清理，它应该具有以下属性:

Each row describes a single object
Each column describes a property of that object
Columns are numeric whenever appropriate

3.探索全局特征：通过直方图，散点图，聚合函数等获得一个数据的全局的了解

4.探索分组特征。通过一些分组操作分析数据集

3.实践

3.1 数据整理与探索

  %matplotlib inline
  
  import matplotlib.pyplot as plt
  import pandas as pd
  import numpy as np
  #tell pandas to display wide tables as pretty HTML tables
  pd.set_option('display.width', 500)
  pd.set_option('display.max_columns', 100)
  
  def remove_border(axes=None, top=False, right=False, left=True, bottom=True):
      """
      Minimize chartjunk by stripping out unnecesasry plot borders and axis ticks
      
      The top/right/left/bottom keywords toggle whether the corresponding plot border is drawn
      """