大众点评数据爬虫，破解反爬虫（学习使用）

最新推荐文章于 2024-08-08 07:52:01 发布

小牛头#

最新推荐文章于 2024-08-08 07:52:01 发布

阅读量6.4k

点赞数 5

分类专栏： python

本文链接：https://blog.csdn.net/qq_41562377/article/details/105539643

版权

python 专栏收录该内容

38 篇文章 0 订阅

订阅专栏

大众点评反爬虫研究学习

研究前

大众点评不同的网页处理的反爬是不一样的。

反爬虫的思想理论

具体的字体映射思想建议先看完字体映射思想，点这里

实际操练

打开网址

首先打开大众点评的网址，点击这里。以这个为例子，记得先在网站上登录

***************************************************************图1-1

根据反爬虫思想理论，查看字体映射的背景样式

请求3上的URL，记得在URL前加上https:

https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/18c453dbeeb8a76baa380d4875d30f58.svg

请求得到结果如下图

仔细观察可以发现里面有地址所需要的文字。我们检查网页源代码

字体“路”对应的坐标，如图1-1中的4.（-154.0px -171.0px;），解的时候要把负号去掉，也就是说：路（154,171）。
根据字体映射的思想理论：

至此，就可以解出文字的位置信息。
那么怎么得出那么多的字体映射 background-image呢？
查看网页源代码的时候，发现了一个css样式，里面包含了所有的svg ：backgroud-image

首先先使用加载 //3plus…的css文件，可以得到一个很全的css位置样式。记得在URL前面加上 https:
接下来 Ctrl +F 键输入background-image

发现有三个svg，就是bacground-image url括号里面的连接，我们分别加载它，记得加上https：

1-第一个
```
https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/894b2de6db675ff13bf99df4e824e029.svg
```
加载第一个得到,如下图所示，可以猜测是评论方面的.svg

结果发现和评论上的svg是一样的，如下图

第二个
```
https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/18c453dbeeb8a76baa380d4875d30f58.svg
```
加载第二个

推测是和地址一样的。结果也是这样。现在可以发现一个东西，地址和评论对应的加密是不一样的。

第三个
```
https://s3plus.meituan.net/v1/mss_0a06a471f9514fc79c981b5466f56b91/svgtextcss/a9ca1463919b05739b97df87c6ae0b74.svg
```
加载之后得到数字，同理应该是和电话一样的