爬取6.6w+豆瓣电影之后,分析他们的故事

 

我做了一个,并且把豆瓣上的电影遍历了一次,一共抓取了19w+数据,去重复之后有6.6w+。

此次抓取的电影数据包括:电影的ID,名称、上映时间、导演、编剧、时长、语言、评论数量、豆瓣总评分、国家/地区。利用以上这几个维度,下面做一些分析。

(一)国家与电影

数据都出来之后,我想做的第一件事情是想看看各个国家地区的电影的总体评分情况,然后得到了下面的这张图片:地图颜色越深,表示该国家/地区的电影得分平均值越高,相反颜色越浅,得分平均值越低,简而言之:颜色深-电影质量总体高|颜色浅、电影质量总体低。

 

通过上图,可以看出在地图上颜色比较深的几个国家和地区分别是:

 

美国:毕竟有一个好莱坞,平均评分很高也是很正常的

尼日利亚(nigerial):尼日利亚电影业始于20世纪60年代,在1990年前后逐步走向顶峰,由此拉开了“尼莱坞”电影爆发式增长序幕。截止到2012年,“尼莱坞”每年生产超过1500部电影,贡献产值近5亿美元,直接或间接创造了近40万个工作岗位。从电影年产量看,“尼莱坞”仅次于“宝莱坞”,居世界第二;从年产值来看,它排在“好莱坞”和“宝莱坞”之后,居世界第三。

英国:英国的高质量电影很多:《无路可逃:一部关于模糊乐队的电影》、《憨豆先生》、《Starshaped》、《炼狱 The Crucible》等等

日本、冰岛、赞比亚...

那么问题来了,这些电影评分平均值如此高的国家/地区为什么有这么高分数,有两种假设:

  • 有一部分超高质量评分电影拉动整体
  • 整体电影质量评分较高

带着这个问题,我们研究一下英国的电影评分详情。

 

竖轴表示:该分数的数量|横轴:表示电影的评分每一个柱形图代表着某个评分的电影的数量是多少。

 

可以看出,英国电影的总体水平集中在7.5-9.3分,超高评分段(9.5以上)也有部分电影,当然也有少部分烂电影(6分以下的),的出的结论是:整体电影质量评分较高。

(二)时间与电影

我们同样好奇的是,电影的质量与数量是否与年份有关呢?历史上是否某一年的电影质量以及数量都特别高呢?带着这个问题,我们来到此片的分析。

 

以上有两条线:上面一条是上映年份的电影数量、下面一条是上映年份的电影平均分。

获得的最早的年份为1888年从《利兹大桥 Traffic Crossing Leeds Bridge》《朗德海花园场景 Roundhay Garden Scene》的2s无声短片开始。

从1888-1951年左右,电影发展一直处于一个不稳定的时期。可以看一下这其中评分比较高的几个时间点:1900-1904、1925-1927、1935、1938

经过查阅大量资料发现1900-1904年为世界电影的发明阶段的后期以及电影普及阶段的前期,这间产生了几部比较出色的电影比如:《月球旅行记 Le voyage dans la lune》、“西部电影”类型的开山作《火车大劫案 The Great Train Robbery》《梅里爱的魔术》

值得一提的是1905年中国第一部电影《定军山》上映。

根据《西方电影史概论》一书,形成期(1895年——1927年),1925-1927年正处于形成期后期以及发展期的前期,电影作为一种艺术走向成熟。值得一提的是1927年5月11日,美国电影艺术与科学学院宣告成立。

这期间有一些比较出色的电影:查理·卓别林的《淘金记 The Gold Rush》、《宾虚 Ben-Hur: A Tale of the Christ》、《七次机会 Seven Chances》、《将军号 The General》

从1951-2015电影的发展比较平衡,质量评分没有较大的波动,其中2016可能因为很多影片没有在豆瓣展示,所以暂时数据不全。

我们继续看上面的一条线配合下面的这个评分8.0以上的电影上映时间分布图:年份与电影数量的关系:从1993年开始,进入一个高速增长的时期,一直持续到现在。很多人认为 认为93-98是好电影最多的一个时期,这个时期一些代表作品包括:

98年:《海上钢琴师》、《两杆大烟枪》、《拯救大兵瑞恩》、《楚门的世界》、《追随》

97年:《美丽人生》、《泰坦尼克号》、

95年:《大话西游之大圣娶亲 西遊記大結局之仙履奇緣》、《七宗罪》

94年:《肖申克的救赎》、《这个杀手不太冷 Léon》、《阿甘正传》、《活着》

 

(三)看完年份与时间的关系之后看一下季度与电影数量的关系

以上图表展示的是季度与电影质量以及数量之间的关系,每一个条线表示的是当年的四个季度之间的电影数量或者质量的变换情况。看上图(暂时忽略2016年的相关数据):不难发现每年的第三或者第四季度是电影上映的高峰期,就电影质量而言第三季度上映的电影的电影质量相对高出于其他的时期上映的电影。

如果把上映的时间精确到月份会是什么样子的呢?我们继续看下面的这张图片

通过详细的月份图可以看出,就电影数量方面,每年的九月份和十月份是电影上映的高峰期~各个月份上映的电影质量基本上与时间没有关系。

(四)导演与电影

接下来是导演的作品数量大PK,取出了作品数量在35部以上的导演。所有导演的作品的中位数是1,35部以上作品导演作品数量的平均值是50。

 

看到高居榜首的导演王晶,其导演的作品包括:

 

 

有多少你熟悉的电影呢?那么这么多的作品是否有较高的电影质量呢?电影质量是一个非常重要的考量。那么我们接着看。以下蓝色的柱形图表示导演的作品的豆瓣平均得分,黑色的线代表的是导演的作品的数量。

 

注明:筛选的是作品数量大于等于5并且评分不低于8.5的导演展示。

 

(五)时长与电影

 

一部电影一个怎样的时长比较适合?一个小时?一个半小时?还是两个小时呢?以下的图表选择了总计数量在前几位的时长的电影统计。

 

可以看出,在历史的场长河中电影时间多数集中在80-120分钟,其中90-100占大多数:90分钟为最适宜的电影时长。同时我们也看到在卡头的有一个25分钟的柱状图,那么为什么25分钟这个时长会有这么多电影:25分钟是微电影的最佳时长之一。

(六)榜单

最后是一个榜单,一个是历史的TOP电影,另一个是2016的TOP电影。

2016的TOP电影选取的规则是

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 7.5分

2016符合上述选取规则的电影包括

 

第二个是历史的TOP电影,这里我们把要求放的更加严格一点

 

  • 豆瓣评论数 > 100,000
  • 豆瓣评分 >= 8.5

所抓取的电影符合上述要求如下:

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值