欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tsaiedu,并注明消息来源,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
作者:法纳斯特,Python爱好者,专注爬虫,数据分析及可视化
微信公众号:法纳斯得(ID: walker398)
双11已经过去,双12即将来临,离2018年的结束也就2个月不到,还记得年初立下的flag吗?
完成了多少?相信很多人和我一样,抱头痛哭...
本次利用猫眼电影,实现对2018年的电影大数据进行分析。
/ 01 / 网页分析
01 标签
通过点击猫眼电影已经归类好的标签,得到网址信息。
02 索引页
打开开发人员工具,获取索引页里电影的链接以及评分信息。
索引页一共有30多页,但是有电影评分的只有10页。
本次只对有电影评分的数据进行获取。
03 详情页
对详情页的信息进行获取。
主要是名称,类型,国家,时长,上映时间,评分,评分人数,累计票房。
/ 02 / 反爬破解
通过开发人员工具发现,猫眼针对评分,评分人数,累计票房的数据,施加了文字反爬。
通过查看网页源码,发现只要刷新页面,三处文字编码就会改变,无法直接匹配信息。
所以需要下载文字文件,对其进行双匹配。
fromfontTools.ttLibimportTTFont
#font = TTFont('base.woff')
#font.saveXML('base.xml')
font = TTFont('maoyan.woff')
font.saveXML('maoyan.xml')
将woff格式转换为xml格式,以便在Pycharm中查看详细信息。
利用下面这个网站,打开woff文件。
url: http://fontstore.baidu.com/static/editor/index.html
可以得到下面数字部分信息(上下两块)。
在Pycharm中查看xml格式文件(左右两块),你就会发现有对应信息。