woff字体反爬实战，10分钟就能学会

最新推荐文章于 2023-02-19 23:12:56 发布

qq_33605607

最新推荐文章于 2023-02-19 23:12:56 发布

阅读量314

点赞数 1

分类专栏： Python 反爬虫文章标签：爬虫字体反爬 woff字体反爬

本文链接：https://blog.csdn.net/qq_33605607/article/details/101602435

版权

声明：本帖子仅是用于学习用途，请勿与用于恶意破坏别人网站，本人不承担法律责任。

来继续学爬虫呀！

经过分析，当前这种字体反爬机制是：通过获取指定链接的woff字体文件，然后根据html源码的数字
去woff字体文件里面查找真正的数字，讲到底就是一个映射关系/查找字典。如html源码是123，去woff文件里面
查找出来的是：623。好了，看到这里，你一定想说：废话讲那么多干嘛？赶紧上教程啊！！

分析目标网站页面（在这里我不打算贴出网站地址，请大家自己找网站练习），这里看到html源码和页面展示的数字是不一致的，如下图：
在这里插入图片描述

tips：
一开始不知道是怎么下手，只能谷歌搜索字体反爬，一搜果然很多说法，有说woff文件的、有说CSS的、还有说svg曲线啥的，
然后我就去查看Network里面的All，就发现关键字眼woff，就开始猜测可能是属于这种类型的反爬手段，接着开始干活。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
但是这好像看不出什么，然后我们接着需要从另外一方面下手，重点来了》将woff文件转换为xml文件
如下：

import os
import requests
from fontTools.ttLib import TTFont

base_dir = os

关注