案例▍Python实战 爬取万条票房数据分析2019春节档电影状况

本文通过Python爬取中国票房网的年后两周影院票房数据,探讨2019春节档电影票房的地域差异。数据包括影院名称、当周票房、单荧幕票房等6个变量,分析了不同地区影院的表现。非官方统计,仅供参考。
摘要由CSDN通过智能技术生成

640?wx_fmt=jpeg

题图|《流浪地球》海报 作者|量化小白上分记 36大数据获授权转载

今年春节档全国共有8部影片上映,对于影片的对比分析已经非常多,孰优孰劣,每个人心里都有一杆秤,不再赘述。本文着重分析影片票房的地域差别,爬取了年后两周各地万余家影院的票房数据,一起来看看各地影院今年春节档表现如何,非官方统计,数据一定不准确,看看就好。

1.数据说明

分影院的票房数据来自中国票房网: ** http://www.cbooo.cn/cinemaday **

网站提供日票房排行榜的前100名和周票房的前一万余名,本文爬取包含更多样本的周票房数据,取年后两周的数据。

640?wx_fmt=png

最终爬到的数据样式如下,数据从左往右依次为 ** 影院名称 ** , ** 当周票房 ** 、 ** 单荧幕票房 ** 、 ** 场均人次
** 、 单日单厅票房单日单厅场次 6个变量。

640?wx_fmt=png

2.数据获取

使用python获取数据,对于爬取过程不感兴趣的可以直接看下部分,需要数据/代码的请在后台回复“ ** 票房 ** ”。

在数据页面按 ** F12 ** 打开开发者工具,选择 ** NetWork ** , ** XHR **
,刷新页面后,依次点1,2,3,4页,接收到了一堆文件。

640?wx_fmt=png

右键任意打开一个,显示如下(如果不是这种格式,说明你选错了)

640?wx_fmt=png

是我们需要的数据,对比前后的变量关系,得到每个变量的含义。

640?wx_fmt=png

再分析网址,从前面的截图能看出来, pindex后面跟的是页码 ,对页码进行循环就可以爬到所有的数据。dt =
1042看不出来什么意思,但改变日期范围重复上面的操作时,看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值