反反爬虫 大众点评-图片文字破解 2020年6月6日更新

本文详细介绍了如何破解大众点评的反爬虫策略,特别是针对文字变为图片的情况。通过分析前端代码和CSS样式表,发现SVG标签用于文字隐藏,通过坐标值和字库图片,可以将文字还原。最终,作者成功地建立了字典,为爬虫抓取评论信息提供了解决方案。
摘要由CSDN通过智能技术生成

非常关键的一步(没这步就会显示乱码)

直接爬取(错误爬取页面)

当你直接在店铺页面爬取时
在这里插入图片描述
在F12选取元素后会发现html文件里面的字是乱码字
在这里插入图片描述

正确的爬取页面

在这里插入图片描述
进入商家页面的review_all页面,直接在商家URL地址后面加,或者
在这里插入图片描述
打开这个位置的URL
此时再审查元素就可以看到我们想要的东西了
在这里插入图片描述

界面元素审查

不得不说,大众点评的反爬虫措施还算可以,但是为了网页加载的运行效率,反爬措施无法做得非常深入,给反反爬虫给了非常大的机会。
在这里插入图片描述
随便找一个大众点评的评论来进行分析,发现评论的是子字和图片(svgmtsi标签)混合起来的,而且最骚的是,你每次刷新,它都会重新将某些文字换成图片。

第一次刷新

第二次刷新

在这里插入图片描述

行不通的解决方案

Q:所以,难道解决方案是通过不停的刷新来获取文字最后进行拼接吗(并不是:( &#x

  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值