python 爬虫破解字体加密反爬技术(大众点评为例)

本文介绍了一位Python初学者在爬取大众点评网站时遇到的字体加密反爬问题。通过观察网络字体文件并使用fontCreator软件,解析字体编码,创建字典映射关系,实现在爬取页面时替换加密字符。提供了详细的操作步骤和参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大家好,我是python小白,今天记录一下我的爬虫学习之路,在爬取大众点评网站的时候遇到的问题。

首先访问该网站的时候,打开浏览器检查工具,我们可以看到他将一些数据进行了加密,以防止爬客对这些数据进行抓取:
在这里插入图片描述
在这里插入图片描述
像这样的加密属于字体加密,网页使用了自定义的字体文件,我们需要利用好浏览器的检查工具去查找它所使用的的字体文件。

打开network——>font,我们可以看到所使用的字体文件。但每刷新页面或者重新进入此链接,字体文件都不一样,网上的大佬们都是获取到字体文件的链接然后下载下来做比较,这里我就用笨一点办法啦,据我观察,所使用的字体文件总共有四个我都下载下来(此方法只适合使用的字体文件不多的情况):
在这里插入图片描述
下载下来之后用fontCreator软件打开字体文件,通过观察,发现每个字体文件中字体的编码都不一样
在这里插入图片描述
每个编码对应一个字体,例如

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值