IMDB电影数据分析实践

本文介绍了使用IMDB和MovieLens数据集进行电影数据分析的实践,包括数据整理、探索和分析。通过对电影题材、时长、年代和类型的探索,揭示了影响评分和受欢迎程度的因素。同时,分享了数据清洗和构建数据框的步骤,以及如何利用直方图和散点图进行数据探索。
摘要由CSDN通过智能技术生成
Abstract: IMDB电影数据分析练习。

1.项目简介

数据集

  • 包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据

  • MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用

实践内容

  • 1.什么样题材的电影评分会相对较高(较低)

  • 2.电影时长对评分是否有影响

  • 3.不同年代什么类型电影较受欢迎

  • 4.其他自选角度

2.数据整理步骤

1.构建数据框:理想情况下,把所有数据放入这个数据框中

2.清洗数据:对构建的数据框进行数据清理,它应该具有以下属性:

  • Each row describes a single object

  • Each column describes a property of that object

  • Columns are numeric whenever appropriate

3.探索全局特征:通过直方图,散点图,聚合函数等获得一个数据的全局的了解

4.探索分组特征。通过一些分组操作分析数据集

3.实践

3.1 数据整理与探索

  %matplotlib inline
  
  import matplotlib.pyplot as plt
  import pandas as pd
  import numpy as np
  #tell pandas to display wide tables as pretty HTML tables
  pd.set_option('display.width', 500)
  pd.set_option('display.max_columns', 100)
  
  def remove_border(axes=None, top=False, right=False, left=True, bottom=True):
      """
      Minimize chartjunk by stripping out unnecesasry plot borders and axis ticks
      
      The top/right/left/bottom keywords toggle whether the corresponding plot border is drawn
      """
  
  • 7
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值