Python数据可视化：2018年电影分析

最新推荐文章于 2024-07-20 08:30:00 发布

R3eE9y2OeFcU40

最新推荐文章于 2024-07-20 08:30:00 发布

阅读量1.7k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/R3eE9y2OeFcU40/article/details/84594870

版权

本文介绍了作者利用Python爬取并分析2018年猫眼电影数据的过程，包括网页分析、反爬破解、数据获取、数据存储和数据可视化。通过分析电影的评分、票房和人气等，展示了电影行业的部分趋势。

摘要由CSDN通过智能技术生成

欢迎关注天善智能，我们是专注于商业智能BI，人工智能AI，大数据分析与挖掘领域的垂直社区，学习，问答、求职一站式搞定！

对商业智能BI、大数据分析挖掘、机器学习，python，R等数据领域感兴趣的同学加微信：tsaiedu，并注明消息来源，邀请你进入数据爱好者交流群，数据爱好者们都在这儿。

作者：法纳斯特，Python爱好者，专注爬虫，数据分析及可视化

微信公众号：法纳斯得（ID: walker398）

双11已经过去，双12即将来临，离2018年的结束也就2个月不到，还记得年初立下的flag吗？

完成了多少？相信很多人和我一样，抱头痛哭...

本次利用猫眼电影，实现对2018年的电影大数据进行分析。

3901436-5f740f567eecf62c

/ 01 / 网页分析

01 标签

3901436-97aa27b8c9849a37

通过点击猫眼电影已经归类好的标签，得到网址信息。

02 索引页

3901436-328708e00a43b947

打开开发人员工具，获取索引页里电影的链接以及评分信息。

索引页一共有30多页，但是有电影评分的只有10页。

本次只对有电影评分的数据进行获取。

03 详情页

3901436-3da1f26928de3a8f

对详情页的信息进行获取。

主要是名称，类型，国家，时长，上映时间，评分，评分人数，累计票房。

/ 02 / 反爬破解

3901436-a4a5c77d11f81936

通过开发人员工具发现，猫眼针对评分，评分人数，累计票房的数据，施加了文字反爬。

3901436-2a1fa74f6b35a969

通过查看网页源码，发现只要刷新页面，三处文字编码就会改变，无法直接匹配信息。

所以需要下载文字文件，对其进行双匹配。

fromfontTools.ttLibimportTTFont

#font = TTFont('base.woff')

#font.saveXML('base.xml')

font = TTFont('maoyan.woff')

font.saveXML('maoyan.xml')

将woff格式转换为xml格式，以便在Pycharm中查看详细信息。

利用下面这个网站，打开woff文件。

url: http://fontstore.baidu.com/static/editor/index.html

可以得到下面数字部分信息(上下两块)。

在Pycharm中查看xml格式文件(左右两块)，你就会发现有对应信息。

3901436-fd24750cb459690a

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。