最全一次Python爬虫实战，解决反爬问题！_多多防爬，2024年最新一线互联网公司java面试

2401_84140628

于 2024-05-13 15:58:31 发布

阅读量1.1k

点赞数 24

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84140628/article/details/138806894

版权

程序员专栏收录该内容

133 篇文章 0 订阅

订阅专栏

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

人生苦短，快学Python！

随着互联网的发展，Python的崛起，很多网站经常被外面的爬虫程序骚扰，有什么方法可以阻止爬虫吗？

阻止爬虫也就称之为反爬虫，反爬虫涉及到的技术比较综合，说简单也简单，说复杂也复杂，看具体要做到哪种保护程度了。

针对于不同的网站，它的反爬措施不一样，常见的反爬有User-Agent、ip代理、cookie认证,js加密等等，与之对应所保护的数据也不一样。比如某宝某猫等电商网站，那么店铺信息用户信息就比较重要了，像是某眼电影网站，它对于电影评分，票房等信息做了反爬处理。

我们今天的采集目标网站是某论坛，当对其文章的文本数据进行采集时，但是发现有字体反爬措施，就是有的文本数据被替换了。（文末附python学习资料）

一、需求分析

我们是需要爬取论坛文本数据，如下图所示：
在这里插入图片描述
部分网页源码展示：

我们发现文本数据是在网页源码里面的。

二、发起请求

import requests
url = "https://club.autohome.com.cn/bbs/thread/665330b6c7146767/80787515-1.html"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36"}
r = requests.get(url, headers=header)
html = etree.HTML(r.text)  
content = html.xpath("//div[@class='tz-paragraph']//text()")
print(content)

然后得到如下数据（部分数据截图）：
在这里插入图片描述
虽然在网页源码里面存在目标数据，但是通过requests简单请求之后发现有的文字被特殊字符替换掉了，此时再次查看Elenments对应的标签里的数据，如下图所示：

由图可以发现有的字被替换掉了，所以我们需要找到汉字被替换的方式，然后替换回去。

三、字体替换

我们知道系统字体一般都是xxxx.ttf的文件形式，如下图所示：
在这里插入图片描述
通过检查发现该网站中使用的字体对应的是myfont，这个很明显是网站为了反爬设置的自定义的字体：

了解css的伙计应该知道，网页的字体样式放在了style标签里面，如下图所示：

然后拿到url对应属性（xxx57…ttf）,

//k3.autoimg.cn/g1/M02/D0/99/wKgHFVsUz1eAH_VRAABj9PS-ubk57…ttf

查看后发现是一个字体文件：
在这里插入图片描述
然后打开字体查看文件，把字体文件拖拽进去,如下图所示：（使用软件为FontCreator，可以查看字体的软件）

如果不想使用软件，可以打开百度字体平台网站，对应页面和软件打开是一样的

粗略一看其实发现不了什么，所以我们需要使用fontTools第三方库查看字体文件：

from fontTools.ttLib import TTFont
font = TTFont('./wKgHFVsUz1eAH_VRAABj9PS-ubk57..ttf')
print(font.getGlyphOrder())

结果如下图所示：
在这里插入图片描述
然后我们发现比如在先前的特殊字符表中，

这三个字应该分别对应于，大、的、一，首先大对应的后缀为edb8,在字体文件的输出的列表中中有一个uniEDB8,对应于第六个，然后再FontCreator软件中刚好对应第六个汉字大，如下图所示：
在这里插入图片描述
所以规律就是这样的。

四、数据抓取

1、先把对应的汉字打出来储存在一个列表中；

word_list = ['很', '五', '多', '远', '大', '十', '更', '了', '的', '矮', '不', '少', '九', '三', '八', '一', '右', '坏', '近', '着', '呢','左', '是', '长', '六', '上', '短', '七', '高', '二', '得', '好', '下', '和', '四', '地', '小', '低']

2、把字体文件对应的特殊字符保存到另一个列表中，边进行处理；

font = TTFont('wKgHFVsUz1eAH_VRAABj9PS-ubk57..ttf')
unilist = font.getGlyphOrder()
uni_list = []
for i in unilist[1:]:
    s = r'\u' + i[3:]
    uni_list.append(s)
print(uni_list)

但是问题出现了，结果如下：
在这里插入图片描述
我们发现出现了两个反斜线，所以需要使用eval函数简单修改：

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84140628

关注

24
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
最全一次Python爬虫实战，解决反爬问题！_多多防爬，2024年最新一线互联网公司java面试

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
复制链接

扫一扫