《海王》刚刚在国内上映就好评如潮,可惜最近非常忙,而且异地出差,根本没时间观影,于是忙中抽空用python做了一篇影评分析,看一下最先的一批影迷们是如何看待这部电影的。(Python菜鸟群:712729208,欢迎加入)
1数据的获取
常用的影评数据获取网站一般是豆瓣和猫眼,虽然二者都有各自的反爬措施,较豆瓣来说,猫眼影评中能很容易获取评论者的性别、地理位置等信息,所以决定使用猫眼影评作为本次分析所用数据。
通过API获取到的影评数据为json格式,这对于数据的提取又提供了便利,这里我们提取每条影评的ID、评论时 间、评分、所在城市、评论内容、用户性别等信息,获取数据的部分核心代码如下:
base_url为影评的API
movie_id为该电影在猫眼中的id
offset为页面偏移量
crawl_one_page_data函数获取并返回每页的json数据;parse_one_page_data函数解析每页的json数据,从中提取需要的内容。
经过一段时间的爬取共获得近1W条数据7个维度,进行定性分析和简单的定量分析已经足够了,数据样式如下图。
2影评分析
用Python做可视化分析的工具很多,目前比较轻量级好用的库是pyecharts,我们快速看一下近万条影评的数据可视化结果:
1)总体评分
《海王》在猫眼中的总体评分为9.5分,这个分数无疑是非常高的。从评分分布来看,大多数评分都给了满分,占 总数的67.9%,其次是4.5分,占总数的16.4%,给到3分及以下的人非常少,还不足总人数的5%,要知道众口难调,这个差评比例在电影中可以算非常低的了。
2)性别差异
通常来说这种DC的“大片”比较符合男性口味,从评论者性别分布数据来看,虽然有接近一半的人不愿透露性别,但从已知数据判断,观影男女比例约为4:7,女性观众的比例还是蛮高的。
3)评分性别差异
在评分的性别差异方面,女性观众的平均评分居然要略高于男性观众,这种情况在此类电影中实属少见,由此看来《海王》是一部非常适合男女共同观看的影片,估计是因为画面太美了!
4).地域分布
先来看下观影者的地域分布,最先到影院观影的观众主要集中在东部沿海地区,中部地区次之,西部及北部沿边地区观影人数明显减少,这种情况主要是地区经济发展及消费观念差异造成的,与影片本身关系不大。
从评分的地域分布情况来看,可以说全国一片红,给差评的观众主要集中在山东、江苏一带,给中评的观众相对平均和分散,没有明显规律,看来全国人民对《海王》这部电影的认可态度还是比较一致的。
5).评分-性别-城市三者之间的关系
这里选取了评论数量最高的几个地区进行统计分析,从图中可以看出, 无论哪个地区,何种性别,基本都给予了比较高的评分,这个结果与上面的分析情况也是非常吻合的。
6)评论内容
首先整合评论内容,然后利用wordcloud库绘制词云图,从词云分析情况来看,满屏的“好看”、“特效”、“精彩”等赞美的词语,与以往的DC/漫威电影不同的是,“剧情”、“故事”等字眼也特别醒目。
随后浏览了部分评论内容,正面的支持性评论不用多说,不少人对影片的其他内容,例如营造的海洋环境、影片的内涵等也给出了评价,可以看出这是一部内容比较丰富的超级英雄题材电影。
综上所述,《海王》这部电影确实有观看价值,如果有时间还是有必要去影院亲身体会一下的。看过的同学,欢迎留言讨论!
微信搜索:PythonWork,或者扫码关注,即可领取python学习教程,一个充满福利的公众号!
也可入群学习,Python菜鸟群:712729208