爬取电影票房数据,用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime).
基本的爬取静态网站的技术,模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性,时效性比较短,也许两三天后就失效了,或者网页改版一点也会导致失效。最好的方式还是找到登陆页面,获取需要提交的数据和提交方式,模拟我们正常登陆的方式进行数据提交。)
然后,分析页面,用正则表达式匹配需要的信息,然后抓取信息,保存在excel表格里。
不过这个网站的数据还是有很多问题,不少数据是缺失的,而且数据杂乱,演员数据要么重复,要么几个 名字连在一起。还需要进行数据清洗,不能直接使用。
代码放在github上:https://github.com/JXC321/-.git