热门电影影评数据爬取与分析项目分析报告

!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!

 💕💕作者:小马
💕💕个人简介:混迹在java圈十年有余,擅长Java、微信小程序、Python、Android等,大家有这一块的问题可以一起交流!
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。

摘  要

在电影行业飞速发展的当今,电影已经成为了非常普遍的娱乐选择,电影行业无疑已经进入了全民关注,全民讨论时代。但随着大家对电影质量和制作水平的要求越来越高,电影出品方想要斩获高票房,就必须把握好消费者的喜好。

通过Python网络爬虫获取主流电影评分网站豆瓣网上关于《复仇者联盟4》评论用户的基本信息、影评内容等数据,从时间上:用户发表短评数量随日期的变化情况、用户发表短评数量随时刻的变化情况、随日期变化,评分变化情况;城市上:用户常居城市分布情况、不同城市的评分情况;会龄上:发布短评用户的会龄分布、会龄对评分的影响几个方面入手进行分析,得到以下结论:

2019年4月24日,这个时间点正是《复联4》在中国大陆的上映时间,将近一半的用户在这一天发表短评的这个现象说明:大部分观影用户喜欢在影片上映第一天前去电影院观看。

而从2019年4月24日开始的为期一周的时间内,用户共发布了591条短评,占据总数据的87.3%,这个现象更是说明绝大部分观影用户都喜欢在影片上映的前期进行观看。

第3、4条特征更是从侧面佐证了上述的结论。随着时间的流逝,观影人数越来越少,半个月之后,观影人数更是低至每天1人甚至更少。

根据上述分析,可以判断出:电影出品方不但应该在电影上映后加紧宣传,更应该注重在电影上映前的宣传。

电影上映前的充分宣传能够勾起观影用户的好奇心,刺激他们选择在电影上映第一天便前来观看。从图中也可以看出,时间越是推移,用户前来观看的几率就越小,因此,电影上映前的充分宣传是增加用户前来观看的几率的有效手段。

1.2分析用户发表短评数量随时刻的变化情况

通过附件TASK6,对不同用户发表短评的具体时刻进行统计,绘制出《复联4》短评发表数量关于具体时刻变化的折线图如图2:

图 2《复联4》短评发表数量随时刻的变化情况

从图2中可以看出以下3条特征:

对于第一条特征,影片《复联4》全长181分钟,约3个小时,其在中国大陆的首映时间为2019-04-24 00:00,故图1中在2019-04-24 00:00进行观看的335人将会在当天凌晨3点01分结束影片的观看,并将随后把自己对观看《复联4》首映无法抑制的感想在豆瓣上以短评的方式展现出来,这是造成图2中凌晨3点发表的短评数量远远高于其他时刻的原因。

而这时的打分与短评数据会成为第二天未观看首映的用户的参考资料,也会成为各家自媒体大肆宣传的材料之一。因此,电影出品方在电影首映后几小时内应当格外注意豆瓣、淘票票、猫眼等网站的评分与评论。

如若口碑不错,可以收集这些资料并及时发布至微博等官方平台,让未观看用户怀有已经看过的人大部分都觉得这部电影很不错,值得一看的想法,从而吸引他们前来观看。如若口碑不好,则更应当在微博等平台加大宣传力度,引起话题,在不妙的评论蔓延之前及时激起未观看影片且未观看评论的用户的好奇心,吸引他们前来观看,进而尝试打一场翻身战。

对于第二条特征,可以发现0点、2点、22点及23点都处于深夜与凌晨的时候,17点是下午吃晚饭的时候,即在中午发表的短评数量并不多。对于一般情况来讲,即使看完电影心情再澎湃,用户也不会选择站在电影院门口发表短评,而是在一个较为空闲的时候(如吃饭前后),且较为方便的地点(如家中、奶茶店、餐馆等)来发表短评,然而观影过后激情总是会消退的,因此想要发表短评的用户也不会等观影后过很久的时间再去发表。

由此可以推测:若是上午观看了电影,则应当在中午的时间发表短评,若是下午观看了电影,则应当在晚饭的时间发表短评,若是晚上乃至深夜观看了电影,则应当在回到家中或找到地方可以坐下来休息时进行发表。而图2中显然短评发表的高峰期不在中午,这说明大部分用户更喜欢在下午或者晚上的时间去观看电影。

故电影出品方若将影片上映时间改为下午或者晚上,想必能吸引更多用户前来观看。

然而由特征3可以看出在凌晨观看影片的情况虽然有,但还是比较少的,因此不建议电影出品方若将影片上映时间定为凌晨。图 3《复联4》用户打分平均分随日期的变化情况

  1. 绝大部分观影用户喜欢在影片上映第一天前去电影院观看,随着时间的流逝,观影人数会越来越少,故电影上映前的充分宣传是增加用户前来观看的几率的有效手段;
  2. 电影出品方在电影首映后几小时内应当格外注意豆瓣、淘票票、猫眼等网站的评分与评论,如若口碑不错,可以收集这些资料并及时发布至微博等官方平台,如若口碑不好,则更应当在微博等平台加大宣传力度,引起话题,尝试打一场翻身战;
  3. 电影出品方若将影片上映时间改为下午或者晚上,想必能吸引更多用户前来观看;
  4. 首映当天的打分会比首映之后的打分高,电影出品方任然应当十分重视首映当天的影片打分情况,在打分结果出来后及时采取对应措施;
  5. 经济发达的城市的用户比其他城市的用户更热衷于观看电影的行为,如若想增加电影的票房,吸引经济发达城市的用户来观看比起吸引其他城市的用户来观看的成功几率更大;
  6. 非经济发达城市对观影有兴趣的用户在所有用户中占比将近有一半,不容小觑,如若想增加电影的知名度,在这些城市中的宣传也应该到位,不能忽视。
  7. 若专门制作针对某地传统特色的电影,不但能够保证原有的经济发达地区的票房,还能够特定地针对某个地方,增加此地的票房,不失为一种好方法;
  8. 情怀的确能够拉动票房的增长,因此,制片人可以从情怀入手,制作如《复联》至《复联4》一样的一系列的且时间跨度较大的电影,以此来拉动那个年代的用户观看;
  9. 目前影片的制作任应以年轻且有独立经济能力去观影的用户作为主要对象,影片应多加些能够吸引此类人群的元素;
  10. 情怀虽吸引用户前来观看,但同时用户对影片的要求也会更高一筹,因此更加要注重情节,注重路人是否看得懂此影片。

    一、问题重述

    1.1问题背景

    在电影行业飞速发展的当今,电影已经成为了非常普遍的娱乐选择,中国电影最近几年也是突飞猛进,越来越多的人走进电影院。而信息媒体的发展也使得所有人都拥有了随时随地与世界各地的人讨论电影的机会,电影无疑已经进入了全民关注,全民讨论时代。

    但是随着越来越多的电影上映,越来越大的阅片量,大家对电影质量和制作水平的要求也越来越高。电影出品方想要斩获高票房,就要把握好消费者的喜好,制作出符合市场期待的电影。

    在国内,豆瓣、淘票票、猫眼三家网站都有自己所属平台的评分功能,俨然形成了国内的“电影评分三巨头"。电影评分网站上蕴含了大星的电影评论、排行、评分等信息,是消费者择片困难时的重要参考依据,也是电影出品方了解用户喜好的有效途径。

    一份科学的电影消费者数据分析报告,是预测票房的重要依据之- :,也能够帮助出品方规划未来电影拍摄计划,对出品方投资有着重要意义。所以,如何获取、分析消费者喜好信息是电影出品方非常关注的事情。

    1.2提出问题

    为了获取、分析消费者喜好相关信息,本项目将通过Python网络爬虫获取主流电影评分网站豆瓣上关于《复仇者联盟4》评论用户的基本信息、影评内容等数据,并对获取到的影评数据进行简单的文本分析,帮助出品方了解用户偏好。

  11. 内容分析
  12. 本次项目分析前期采用附件TASK1,TASK2以及TASK3分别爬取了豆瓣官网上《复仇者联盟4:终极之战》(以下简称《复联4》)中的219条好评数据,218条中评数据以及240条差评数据,合计677条数据。以下将分别从时间、城市及会龄三个方面来对这些数据进行具体的分析。

    (一)时间分析

    1.1分析用户发表短评数量随日期的变化情况

    通过附件TASK5,对不同用户发表短评的具体日期进行统计,绘制出《复联4》短评发表数量关于具体日期变化的折线图如图1:

    图 1《复联4》短评发表数量随日期的变化情况

    从图1中可以看出以下4条特征:

  13. 在爬取的677条数据中,有将近一半的用户是在2019年4月24日发表短评的;
  14. 在从2019年4月24日开始的为期一周的时间内,用户共发布了591条短评,占据总数据的87.3%;
  15. 短评最晚发布时间为2019年6月30日,然而在从2019年5月15至2019年6月30日期间,仅仅有10条短评被发布;
  16. 除去2019年4月27日外,图中短评发表数量几乎是随着日期的增加而减少的,呈递减的趋势。
  17. 在凌晨3点发表的短评数量比其他时刻短评数量显著地多,是其他时刻短评发表数量的两倍、三倍乃至六倍;
  18. 除去凌晨3点,其他时刻短评发表数量较多的有0点、2点、17点、22点及23点;
  19. 凌晨5、6点发表的短评虽然有,但是与其他时刻发表的短评数量相比,实在是少。

图 4《复联4》短评用户常居城市分布情况折线图

图 5《复联4》短评用户常居城市分布情况圆饼图

6:

图 6《复联4》不同城市用户评分情况


图 7《复联4》不同用户会龄分布情况柱状图图 8《复联4》短评用户不同会龄阶段对应评分情况


图 9 join time(注册时间)为2019年的6条数据

更多项目:

另有1000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!

!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!

  • 17
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员小马软件开发定制

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值