背景介绍
相信大家在选择订阅流媒体平台时一定都会有一个疑问🤔️ :到底选择订阅哪一个平台可以观看到更多质量更高的影片呢?又或者我偏爱某一类型的电影我该选择哪一家流媒体平台订阅呢?
为了解决这个问题,我选取了一个包含近100年发行的超过一万部影片的相关信息及Netflix,Hulu,Prime Video,Disney+四家流媒体平台的放映信息的数据包。
作为一个电影爱好者解决了首要问题之后我当然还会进行一些发散性数据分析:比如哪个国家制作了最多高分电影?哪个类型的电影平均得分最高?哪一年发行了最多影片?
看到这里如果有同为电影爱好者的读者可以先猜想一下答案
下面是该数据包中包含的字段以及对各字段的解释:
ID:每部影片独特的ID
Title:每部影片的标题
Year:影片发行年份
Age:年龄限制,如7+,13+等
IMDb:IMDb(互联网电影数据库)得分
Rotten Tomatoes:烂番茄得分
Netflix:是否在Netflix放映
Hulu:是否在Hulu放映
Prime Video:是否在Prime Video放映
Disney+:是否在Disney+放映
Type:影视剧或电影(0为电影,1为影视剧)
Genres:影片类型
Country:在哪个国家制作
Language:语言类型
Runtime:总时长
数据预处理
通过观察原始数据集的排列我发现Unnamed:0这一列没有提供任何有用信息可以直接删除。
按照惯例拿到数据集先查看数据