反反爬虫大众点评-图片文字破解 2020年6月6日更新

最新推荐文章于 2022-04-06 17:46:24 发布

mahuatengmmp

最新推荐文章于 2022-04-06 17:46:24 发布

阅读量1.8k

点赞数 5

分类专栏：爬虫文章标签： spyder javascript css html5 css3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mahuatengmmp/article/details/106502277

版权

本文详细介绍了如何破解大众点评的反爬虫策略，特别是针对文字变为图片的情况。通过分析前端代码和CSS样式表，发现SVG标签用于文字隐藏，通过坐标值和字库图片，可以将文字还原。最终，作者成功地建立了字典，为爬虫抓取评论信息提供了解决方案。

摘要由CSDN通过智能技术生成

非常关键的一步(没这步就会显示乱码)

直接爬取(错误爬取页面)

当你直接在店铺页面爬取时
在这里插入图片描述
在F12选取元素后会发现html文件里面的字是乱码字

正确的爬取页面

在这里插入图片描述
进入商家页面的review_all页面，直接在商家URL地址后面加，或者

打开这个位置的URL
此时再审查元素就可以看到我们想要的东西了

界面元素审查

不得不说，大众点评的反爬虫措施还算可以，但是为了网页加载的运行效率，反爬措施无法做得非常深入，给反反爬虫给了非常大的机会。
在这里插入图片描述
随便找一个大众点评的评论来进行分析，发现评论的是子字和图片(svgmtsi标签)混合起来的，而且最骚的是，你每次刷新，它都会重新将某些文字换成图片。

第一次刷新

第二次刷新

在这里插入图片描述

行不通的解决方案

Q:所以，难道解决方案是通过不停的刷新来获取文字最后进行拼接吗（并不是：( &#x

最低0.47元/天解锁文章

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。