TMDB电影数据分析

                                                     这是关于TMDB5000条电影数据的分析报告

       数据来源于Kaggle https://www.kaggle.com/tmdb/tmdb-movie-metadata

报告分为

    (1)提出问题

    (2)认识数据

    (3)清洗数据

    (4)分析数据

    (5)总结

(一)提出问题

     (1)对电影类型的分析,电影类型主要有哪些,哪些电影类型数量最多,电影类型随时间的变化,哪些电影的票房/利润多,观众更喜欢那种类型的电影

     (2)电影票房与哪些因素相关,电影受欢迎程度的分析

     (3)UniversalPictures和Paramount Pictures这两个公司产出电影的情况对比

     (4)对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

     (5)原创电影和非原创电影的分析

(二)认识数据

       从https://www.kaggle.com/tmdb/tmdb-movie-metadata 下载数据集

       有tmdb_5000_credits.csv和tmdb_5000_movies.csv这两个数据集,描述电影演员相关信息和每部电影的基本信息




可以看出credits有4803行4列数据



可以看出movies有4803行20列数据


2.数据清洗

(1)格式转化
   credits数据中,cast、crew都是json的格式,需要将演员、导演读取出来,以字符串格式显示
   movies数据中genres、keywords、production_companies、spoken_languages也是json格式,需要转化成字符串

(a).credits  json解析





(b).movies  json解析


(2)合并数据

  credits和movies中都有movie_id和title,检查这两个字段是否是相同的


可以看出这两个字段是相同的,将movies的title删掉
 方法一:直接del DF['column-name']
 方法二:采用drop方法,有下面三种等价的表达式:
 1. DF= DF.drop('column_name', 1);
 2. DF.drop('column_name',axis=1, inplace=True)

 3. DF.drop(DF.columns[ : ], axis=1,inplace=True)


df中有22个字段,分别为:
  movie_id : TMDB电影标识号
  title : 电影名称
  cast :演员列表
  director :导演
  budget :预算(美元)
  genres :风格列表,电影类型
  homepage :电影首页的 URL
  id :标识号
  original_language :电影语言
  original_title :电影名称
  overview :剧情摘要
  popularity :在 Movie Database 上的相对页面查看次数
  production_companies :制作公司
  production_countries :制作国家
  release_date :上映时间
  revenue :收入
  runtime :电影时长
  spoken_languages :口语
  status :状态
  tagline :电影的标语
  vote_average :平均评分

  vote_count :评分次数

(3)字段及缺失值处理



可以看出director、release_date、runtime分别有30、1、2个缺失值,这里只处理release_date、runtime的缺失值


(三)数据分析及可视化

1.关于电影类型的分析

(1)获取电影类型





可以看出电影的类型主要是这20种

(2)转化日期格式


(3)电影类型与数量的关系

(1)分类型判断每部电影属于的类型


可以得到如果每行中包含哪个类型的就返回1,否则0


(2)建立包含电影类型和年份的数据框




可以看出电影的拍摄数量是从1992年开始大幅增加的


统计每个类型每年的数量


电影类型随时间变化的趋势(折线图)



可以看出Drama和War这两个类型是随时间波动比较大的,增长较快,现在仍比较热门

电影类型的数量关系(各个类型的总数量)


各个电影类型的数量条形图



可以看出Drama和Comedy是数量最多的前两个

各个电影类型的比例饼图



Drama、Comedy、Thriller、Action这四个类型占了一半多比例,分别为18.9%,14.2%,10.5%,9.5%

(4)电影类型与利润的关系

  (1)电影类型与利润的关系



电影类型的利润条形图



可以看出Animation和Advanture,Fantasy这三个类型的电影是盈利最好的,而Foreign和TV Movie这两个是会亏损的

(2)观众更喜欢哪种类型的电影


电影类型受欢迎的条形图



可以看出观众最喜欢的四中类型是Adventure、Animation、Science Fiction、Fantasy

2.电影票房与哪些因素相关,电影受欢迎程度的分析

(1)每年的票房统计



电影的票房也是从1992开始大幅度增长的

(2)电影预算与票房的关系



可以看出票房和预算是正相关性的,预算越高票房也越高,除去一些极值

(3)电影评分与票房的关系


可以看出评分跟票房的相关性不是很强,评分跟票房大都集中在一个区域

(4)电影时长与票房的关系


(5)评分与受欢迎的关系


评分与受欢迎之间相关性不是很明显,但是大部分受欢迎度高的,基本是评分高的

(6)电影时长与受欢迎的关系


观众喜欢的电影时长大多是90-160分钟

3.Universal Pictures和Paramount Pictures这两个公司产出电影的情况对比



(1)两家公司电影数量对比



这两个公司拍摄的电影是差不多的

(2)两家公司的电影岁时间变化的趋势对比






可以看出随着时间的推移,Universal Pictures和Paramount Pictures公司的电影发行量呈现出增长趋势,尤其是在1992年后增长迅速

(3)两个公司的利润对比


4.对电影导演,突出关键字,电影时长,电影产出地的情况进行分析

(1)对电影的导演进行分析

#direct=df['director'].value_counts()

#direct1=direct[:20]

*导演的拍摄数


拍摄电影数最多的四位导演是Steven Spielberg 、Woody Allen 、Martin Scorsese、Clint Eastwood  分别为27、21、20、20

*评分前20的导演


这些导演的评分基本都差不多的

*票房前20的导演


票房最高的三位导演是Chris Buck、Kyle Balda、Lee Unkrich

(2)关键字分析




可以看出关键字显示的主要是independent film、woman、murder这些字段

(3)电影时长的分析


可以看出评分较高的电影时长集中于80-150分钟之间

(4)电影产地分析





可以看出美国是电影产出大国,超过一半比例

5.改编电影与原创电影的分析

(1)改编电影与原创电影数量对比



可以看出原创电影占绝大部分

(2)原创电影与改编电影预算、收入、利润的对比




可以看出改编电影的预算略高于原创电影,但改编电影的票房收入和利润远远高于原创电影





  • 16
    点赞
  • 187
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
TMDB5000数据分析案例是一个基于TMDB电影数据库的数据分析项目。该项目旨在从TMDB数据库中提取电影信息,并通过对数据进行分析和可视化,揭示电影行业的趋势和模式。 在这个案例中,我们可以使用Python编程语言和相关数据分析工具来处理和分析TMDB5000数据。首先,我们需要导入数据集并了解其中的字段和特征。例如,数据集包含电影的标题、类型、导演、演员、预算、收入、评分等信息。 接下来,我们可以利用数据分析工具,比如pandas和matplotlib,对数据集进行处理和可视化。例如,我们可以通过对电影类型频次进行分析,了解哪种类型的电影最受欢迎。我们还可以分析预算和收入之间的关系,以及评分和收入之间的关系,以揭示电影制作的经济和质量的关联性。 除了这些基本的数据分析任务,我们还可以进一步探索数据集,寻找更深入的见解和趋势。例如,我们可以分析不同国家和地区电影的产量和市场份额,以及电影发展随时间的变化。我们还可以使用机器学习算法,如聚类分析和预测模型,对电影的成功因素进行建模和预测。 总的来说,TMDB5000数据分析案例提供了一个丰富的电影信息资源,通过对数据的分析和挖掘,可以揭示电影行业中的潜在模式和趋势。这种数据分析的应用不仅可以帮助电影制片人和投资者做出更明智的决策,还可以为观众提供更好的电影推荐和体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值