moyue1002的博客

个人学习的记录

TMDB电影数据分析

                                                     这是关于TMDB5000条电影数据的分析报告

       数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata

报告分为

    (1)提出问题

    (2)认识数据

    (3)清洗数据

    (4)分析数据

    (5)总结

(一)提出问题

     (1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影

     (2)电影票房与哪些因素相关,电影受欢迎程度的分析

     (3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比

     (4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

     (5)原创电影和非原创电影的分析

(二)认识数据

       从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集

       有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息




可以看出credits有4803行4列数据



可以看出movies有4803行20列数据


2.数据清洗

(1)格式转化
   credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
   movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串

(a).credits  json解析





(b).movies  json解析


(2)合并数据

  credits和movies中都有movie_id和title,检查这两个字段是否是相同的


可以看出这两个字段是相同的,将movies的title删掉
 方法一:直接del DF['column-name']
 方法二:采用drop方法,有下面三种等价的表达式:
 1. DF= DF.drop('column_name', 1);
 2. DF.drop('column_name',axis=1, inplace=True)

 3. DF.drop(DF.columns[ : ], axis=1,inplace=True)


df中有22个字段,分别为:
  movie_id : TMDB电影标识号
  title : 电影名称
  cast :演员列表
  director :导演
  budget :预算(美元)
  genres :风格列表,电影类型
  homepage :电影首页的 URL
  id :标识号
  original_language :电影语言
  original_title :电影名称
  overview :剧情摘要
  popularity :在 Movie Database 上的相对页面查看次数
  production_companies :制作公司
  production_countries :制作国家
  release_date :上映时间
  revenue :收入
  runtime :电影时长
  spoken_languages :口语
  status :状态
  tagline :电影的标语
  vote_average :平均评分

  vote_count :评分次数

(3)字段及缺失值处理



可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值


(三)数据分析及可视化

1.关于电影类型的分析

(1)获取电影类型





可以看出电影的类型主要是这20种

(2)转化日期格式


(3)电影类型与数量的关系

(1)分类型判断每部电影属于的类型


可以得到如果每行中包含哪个类型的就返回1,否则0


(2)建立包含电影类型和年份的数据框




可以看出电影的拍摄数量是从1992年开始大幅增加的


统计每个类型每年的数量


电影类型随时间变化的趋势(折线图)



可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门

电影类型的数量关系(各个类型的总数量)


各个电影类型的数量条形图



可以看出Drama和Comedy是数量最多的前两个

各个电影类型的比例饼图



Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%

(4)电影类型与利润的关系

  (1)电影类型与利润的关系



电影类型的利润条形图



可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的

(2)观众更喜欢哪种类型的电影


电影类型受欢迎的条形图



可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy

2.电影票房与哪些因素相关,电影受欢迎程度的分析

(1)每年的票房统计



电影的票房也是从1992开始大幅度增长的

(2)电影预算与票房的关系



可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值

(3)电影评分与票房的关系


可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域

(4)电影时长与票房的关系


(5)评分与受欢迎的关系


评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的

(6)电影时长与受欢迎的关系


观众喜欢的电影时长大多是90-160分钟

3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比



(1)两家公司电影数量对比



这两个公司拍摄的电影是差不多的

(2)两家公司的电影岁时间变化的趋势对比






可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速

(3)两个公司的利润对比


4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

(1)对电影的导演进行分析

#direct=df['director'].value_counts()

#direct1=direct[:20]

*导演的拍摄数


拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood  分别为27、21、20、20

*评分前20的导演


这些导演的评分基本都差不多的

*票房前20的导演


票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich

(2)关键字分析




可以看出关键字显示的主要是independent film、woman、murder这些字段

(3)电影时长的分析


可以看出评分较高的电影时长集中于80-150分钟之间

(4)电影产地分析





可以看出美国是电影产出大国,超过一半比例

5.改编电影与原创电影的分析

(1)改编电影与原创电影数量对比



可以看出原创电影占绝大部分

(2)原创电影与改编电影预算、收入、利润的对比




可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影





阅读更多
想对作者说点什么? 我来说一句

TMDB500电影数据分析

2018年05月09日 1.09MB 下载

没有更多推荐了,返回首页

不良信息举报

TMDB电影数据分析

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭