用Python解读最值得期待的春节档影片是......

640?wx_fmt=jpeg


作者:徐麟,目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据。


前言


随着春节脚步的临近,想必各位读者都已经开始规划幸福的春节长假该如何度过。阖家团聚,探亲访友,与好久没见的好基友一起谈天说地,怼天怼地,想想都是让人感到幸福。


除此之外,每年的春节档电影都会如约而至与大家见面,春节档诞生了许多的经典电影,2019的春节档电影也是佳片云集,被称作“史上最强春节档”,今天我们就带大家一起用数据去解读其中最值得看的影片


数据获取


本次我们的数据主要来源于猫眼,一部分是猫眼的实时预售票房数据:


640?wx_fmt=png


这部分数据可以通过selenium去获取,代码如下:


driver = webdriver.Chrome()
driver.maximize_window()    
driver.close()
driver.switch_to_window(driver.window_handles[0])  
url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])


另一部分数据则来源于猫眼的观众评论,由于电影目前都还没有上映,观众评论给出的分数,表示了其对电影的期待值。需要注意的是,有许多观众在评论中并没有给出评分,会直接显示为0,在后续计算时需要排除,数据如下:


640?wx_fmt=png


这部分数据的获取方法可以参照之前3天9亿!我爬取上万条评论解读《西虹市首富》并预测票房,我们就直接省略爬取代码


预售票房


衡量一个电影关注度的重要方法就是去看首日的预售情况,我们此次选取八部春节档最主要的影片进行对比,代码如下:


p<-ggplot(data[order(data$sale,decreasing = T),][1:8,],
         aes(x=reorder(name,sale),y=sale,fill=name))+
 geom_bar(stat='identity',width = 0.5)+
 geom_image(aes(x=name,y=0,image=image),size=0.08)+
 geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+
 ggtitle('春节档电影预售票房排名(万)') + theme_economist()+ scale_fill_tableau()+                
 theme(axis.text.x = element_blank(),
       axis.text.y = element_blank(),
       plot.title = element_text(hjust=0.5,size=30),
       panel.grid = element_blank(),
       legend.position = 'none',
       panel.background = element_blank(),
       axis.title  = element_blank(),
       axis.line = element_blank(),
       axis.ticks = element_blank()
 )+coord_flip()+ylim(0,6500)
ggsave("春节档上映前预售排名.png", p, width = 10, height = 16)


看一下最终的结果:


640?wx_fmt=png


目前预售排名前三位的都是喜剧题材,看来在春节的时候大家还是更加希望能够放松自己,看一下轻松题材的影评。但是预售票房并不能完全觉得最终的票房走势,可以参考之前上映后口碑崩塌的《地球最后的夜晚》和《爱情公寓》。


排名前两位的影片都有沈腾的参与,看来目前沈腾的票房认可度还是不错的,希望两部影片最终都会取得不错的结果。


从预售票房上看,《廉政风云》和《神探蒲松龄》都有比较大的扑街危险,考虑到港片近期略显低迷的表现,希望这两部影片能够带来一些惊喜。


上映前口碑


另外我们也看一下上映之前,观众对于影片的整体评价情况,这也会在一定程度上体现观众的期待值


代码如下:


p<-ggplot(data[order(data$score,decreasing = T),][1:8,],
         aes(x=reorder(name,score),y=score,fill=name))+
 geom_bar(stat='identity',width = 0.5)+
 geom_image(aes(x=name,y=0,image=image),size=0.08)+
 geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+
 ggtitle('春节档电影上映前评价') + theme_wsj()+ scale_fill_tableau()+                
 theme(axis.text.x = element_blank(),
       axis.text.y = element_blank(),
       plot.title = element_text(hjust=0.5,size=30),
       panel.grid = element_blank(),
       legend.position = 'none',
       panel.background = element_blank(),
       axis.title  = element_blank(),
       axis.line = element_blank(),
       axis.ticks = element_blank()
 )+coord_flip()+ylim(0,5)
ggsave("春节档上映前评分排名.png", p, width = 8, height = 12)


看一下最终的结果:


640?wx_fmt=png


《熊出没》出人意料的在评分中排在首位,这也一定程度上提高了作者对这部影片的期待值,虽然以作者的年龄,应该是不适合去看这部影片u1F602.png《小猪佩奇》凭借此前的超强营销,成功引起了大家的主要,然而最终表现如何,还是需要上映后接受观众的检验。


 同时我们看到成龙大哥领衔的《神探蒲松龄》在评分上要落后于其他影片,看来大家对于这类题材的影片持保留意见比较多一些,我们也期待上映后口碑是否能够实现翻盘。


影片看点


我们最后通过评论去挖掘上映前大家比较关注的点,主要采用jieba分词,需要注意的是,我们需要在分词前增加一些自定义词典,比如“黄景瑜”,如果不加这个自定义词典,就会被分为“黄景”,之后我们会根据词语出现频率筛选出重要的关键词:


def key_words(df):
   comment_str =  ' '.join(df)
   words_list = []
   jieba.load_userdict('spring_film_dict.txt')
   word_generator = jieba.cut(comment_str)  # 返回的是一个迭代        f.close()  # stopwords文本中词的格式是'一词一行'
   for word in word_generator:
       words_list.append(word)
   words_list = Counter([k for k in words_list if len(k)>1])
   return list(dict(words_list.most_common(30)).keys())


最后我们在每个影片中选取了五个能够体现其看点的词语,并进行可视化:


640?wx_fmt=png


我们选取一些比较有趣的看点组合,进行一下深刻(suixing)解读


《神探蒲松龄》:大家都在期待成龙大哥的表演,虽然有很多人提前给其打上了“烂片”的标签,但是依然期待影片口碑的翻盘。同时大家也会认真关注影片特效,不知是否会致敬此前5毛钱“duang”的特效。


《飞驰人生》《疯狂的外星人》:感觉沈腾大有承包今年春节档的态势,预售排名前两位影片中,观众最关注的看点都是沈腾,期待沈腾春节霸屏同时也能收获不错的口碑。沈腾又是和外星人打交道,又是要体验飞驰的人生,喜欢沈腾的观众在春节档可以大饱眼福了。


《小猪佩奇过大年》:一部适合孩子观看的影片,也是一部宣传片获得极大讨论度的影片,希望不要步此前《地球最后的夜晚》上映后口碑崩盘的后尘。


《新喜剧之王》:显然大部分观众对这部影片的期待来自于星爷,有了此前经典版的《喜剧之王》珠玉在前,《新喜剧之王》不可避免地会被哪来与原作对比,我们期待能够简直有一部经典的影片出现。


最后提前祝愿大家新年愉快,体会与家人团聚的幸福同时也能看到精彩的影片!同时大家也可以在留言区与我们互动,分享自己春节档会选择去观看的影片。


长按关注下方公众号后,

回复春节档即可获取本文全部源码


640?wx_fmt=png

§ §

Python中文社区作为一个去中心化的全球技术社区,以成为全球20万Python中文开发者的精神部落为愿景,目前覆盖各大主流媒体和协作平台,与阿里、腾讯、百度、微软、亚马逊、开源中国、CSDN等业界知名公司和技术社区建立了广泛的联系,拥有来自十多个国家和地区数万名登记会员,会员来自以公安部、工信部、清华大学、北京大学、北京邮电大学、中国人民银行、中科院、中金、华为、BAT、谷歌、微软等为代表的政府机关、科研单位、金融机构以及海内外知名公司,全平台近20万开发者关注。


更多推荐


好嗨哦!用Python制作斗图表情包


170行代码爬取《白蛇:缘起》短评数据


我分析了B站的弹幕,看到底啥是佩奇


隐马尔可夫模型(HMM)及Viterbi算法


投稿邮箱:pythonpost@163.com


640?wx_fmt=jpeg

点击下方阅读原文免费成为数据科学俱乐部会员

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值