python3爬取电影数据

  爬取电影票房数据,用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime).

  基本的爬取静态网站的技术,模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性,时效性比较短,也许两三天后就失效了,或者网页改版一点也会导致失效。最好的方式还是找到登陆页面,获取需要提交的数据和提交方式,模拟我们正常登陆的方式进行数据提交。)

       然后,分析页面,用正则表达式匹配需要的信息,然后抓取信息,保存在excel表格里。

  不过这个网站的数据还是有很多问题,不少数据是缺失的,而且数据杂乱,演员数据要么重复,要么几个 名字连在一起。还需要进行数据清洗,不能直接使用。

  代码放在github上:https://github.com/JXC321/-.git

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值