非常关键的一步(没这步就会显示乱码)
直接爬取(错误爬取页面)
当你直接在店铺页面爬取时
在F12选取元素后会发现html文件里面的字是乱码字
正确的爬取页面
进入商家页面的review_all页面,直接在商家URL地址后面加,或者
打开这个位置的URL
此时再审查元素就可以看到我们想要的东西了
界面元素审查
不得不说,大众点评的反爬虫措施还算可以,但是为了网页加载的运行效率,反爬措施无法做得非常深入,给反反爬虫给了非常大的机会。
随便找一个大众点评的评论来进行分析,发现评论的是子字和图片(svgmtsi标签)混合起来的,而且最骚的是,你每次刷新,它都会重新将某些文字换成图片。
第一次刷新
第二次刷新
行不通的解决方案
Q:所以,难道解决方案是通过不停的刷新来获取文字最后进行拼接吗(并不是:( &#x