介绍
关关难过关关过,步步难行步步行。作为一个普普通通,稍微会点爬虫的初级学者,初学时不知天高地厚,网络之大,哪不能去,结果一遇到字体反爬,歇菜了(欲哭无泪)。所以本文将会讲解字体反爬实战,欢迎大家的订阅。
环境
编译器:PyCharm 2021.2.1
解释器:Anaconda 3.8
安装模块
requests 发送请求
parsel 解析html
fonttool 解析字体
pip install parsel==1.6.0, requests==2.25.1, fonttools==4.31.2
温馨提示,最好是在本文所要求环境运行,避免出现程序报错。
工具
在线查看字体:https://font.qqe2.com/
也可以下载High-Logic FontCreator查看,至于怎们下载,请看图
分析
字体反爬使得关键数据乱码,即使得到了也没用。必需要要解密还原数据。字体反爬大致分两种,第一种是静态字体,就是字体不会改变,只需要把对应关系搞好就行了;第二种是动态字体,每次刷新网页,网站字体都会改变,对应关系也随之改变,所以代码不能写死,要找到每一次变的字体,并