python accept解析_Python字体反爬教科书级别的网站-猫眼电影

最新推荐文章于 2023-10-10 16:41:46 发布

程摸摸

最新推荐文章于 2023-10-10 16:41:46 发布

阅读量297

点赞数

文章标签： python accept解析

本文链接：https://blog.csdn.net/weixin_35348630/article/details/113579808

版权

一.问题

可以看到,猫眼网电影评分,票房等的数据在响应的html中并不是直接提供给你的。这里的xefcf,xef87等数据,是以‘特殊符号’的形式显示出来的。

可以发现这里请求了一个woff字体文件,而xefcf,xef87等数据的规则就是在这其中的。所以我们只需要在请求这个网页的同时,截去这部分style,然后获得woff地址,将它下载到本地,进行解析,就可以实现对评分的解密了。

但是再来看下面,当同一部电影的页面刷新时。

这里的评分编码改变了,下面请求的woff的url也改变了。所以每次请求电影页面使用的woff都不是同一个。

在这种情况下,如何才可以实现评分的爬取呢？

二.分步实现

1.页面爬取

第一步我们需要先将整个html页面获取,其中重要的数据就是评分所在的那个span,还有woff的url所在的那个style.

这里使用requests获取网页内容,用BeautifulSoup进行关键内容解析.

'''遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！'''# 请求头设置header = { 'Accept': '*/*;', 'Connection': 'keep-alive', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Accept-Encoding': 'gzip, deflate, br', 'Host': 'maoyan.com', 'Referer': 'http://maoyan.com/', 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}def web(url): db_data = requests.get(url, headers=header) # 这里直接将其编码之前部分替换掉，防止之后使用转义 soup = BeautifulSoup(db_data.text.replace(

程摸摸

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python accept解析_Python字体反爬教科书级别的网站-猫眼电影

一.问题可以看到,猫眼网电影评分,票房等的数据在响应的html中并不是直接提供给你的。这里的xefcf,xef87等数据,是以‘特殊符号’的形式显示出来的。可以发现这里请求了一个woff字体文件,而xefcf,xef87等数据的规则就是在这其中的。所以我们只需要在请求这个网页的同时,截去这部分style,然后获得woff地址,将它下载到本地,进行解析,就可以实现对评分的解密了。但是再来看下面,当同...
复制链接

扫一扫