猫眼字体反爬的前世今时

郑重声明:
本项目的所有代码和相关文章,仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,因为滥用技术产生的风险与本人无关。
文章仅源自个人兴趣爱好,不涉及他用,侵权联系删

最近两天整理了某眼字体反爬的前世今生,这里简单概括一下,下一篇详细介绍目前为止某眼最新的动态字体加密以及解决方法和代码。

首先简单介绍一下字体反爬的定义以及原理:

"字体反爬"
字体反爬就是自定义字体加密映射,通过自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码, 通过复制或者简单的采集是无法采集到编码后的文字内容的(比较敏感的数字金额)。
本质上是页面和前端字体文件相互配合完成的一个反爬策略。像最早使用字体反爬的58同城、汽车之家到现在很多app的web端页面也开始使用,例如美团、猫眼、快手抖音等等。随着爬虫工程师和反爬工程师的不断对抗。
字体反爬从一开始的单纯依靠一个写死的字体文件(静态字体加密映射)升级到现在最新的动态字体加密映射。 而字体反爬的攻克也从刚开始的解析字体文件做数据映射到现在依靠KNN来做动态映射(某眼最新反爬)。

"字体反爬原理"

基本原理就是前端工程师通过自定义的字体来替换页面中某些关键的数据,那在HTML中如何使用自定义字体呢?答案就是使用@font-face,我们举个例子看看@font-face

@font-face {
 font-family: <identifier>; 
 src: <fontsrc> [, <fontsrc>]*; <font>;
  }

eg:
@font-face {
  font-family: stonefont;
  src: url('//vfile.meituan.net/colorstone/5091813559425c67052abdb63f6325e83424.eot');
  src: url('//vfile.meituan.net/colorstone/5091813559425c67052abdb63f6325e83424.eot?#iefix') format('embedded-opentype'),
       url('//vfile.meituan.net/colorstone/01e1a99b766120882582e0ee1fe52eef2268.woff') format('woff');
}

里面的font-family也就是一个特定的名字,src就表示你需要引用的具体的文件,而这个文件就是字体文件,一般是ttf类型,eot类型,
当然,现在因为ttf文件过大,在移动端使用的时候会导致加载速度过慢,woff类型的文件最近也广泛会用,所以一般大家现在碰到的都是woff类型的文件。
那woff文件中的内容是什么呢?它是怎样把数据进行替换的呢?下面我们先简单的看个例子。
我们先把woff文件打开,需要使用两种工具打开:

FontCreator工具:https://www.high-logic.com/font-editor/fontcreator
在线FontEditor工具:http://fontstore.baidu.com/static/editor/index.html

这里我们使用FontCreator,我们把FontCreator下载下来,传来一个我们之前准备好的woff文件看看效果

我们可以看到woff文件中每个字符都有一个编码对应,woff实际上就是编码和字符的映射表。我们再来看看页面中的被替换的词是什么形式。

我们再来看一下页面的信息(打码了,还是要谨慎一点,不可发起攻击性访问,不然爬虫学得好,jy蹲到老哈哈)

这里只显示方框乱码,我们再看一下详情页信息

在这里,我们对比下可以发现,页面源码中的被替换字的就是woff文件中字符的编码加上&#x,所以大家可以发现字体替换的原理就是这样,我们使用一个简单的等式来表现

"替换数据"="&#x{woff文件中被替换数据的编码}"

到这里原理基本明朗,现在我们回顾一下某眼字体反爬的演变过程

阶段一:通过固定的字体文件进行数据替换

a:
大部分网站使用字体反爬的方式是使用固定的字体文件来做数据替换,固定的字体文件就表明每个数据的编码是写死的,不变的,那么每次网站引用这个woff文件之后,都可以用相同的编码来替换想要替换的数据,这就是最初的时候的字体反爬。
b:
既然他们的字体文件不变,那我们就直接解析他们的固定的woff文件就行,我们使用Python的fontTool库的ttLib包,代码如下:

from pathlib import Path
from fontTools.ttLib import TTFont
woff_path = Path(__file__).absolute().parent/"base64 (1).woff"
font = TTFont(woff_path)
font_names = font.getGlyphOrder()
font_str = [
    "8", "验", "杨", "女", "3", "届", "7", "男", "高", "赵", "6", "2", "下", "以", "技", "黄", "周", 
    "4", "经", "专", "硕", "刘", "吴", "陈", "士", "E", "5", "中", "博", "1", "科", "大", "9", "本",
     "王", "B", "无", "李", "应", "生", "校", "A", "0", "张","M"
]
print(dict(zip(font_names[2:],font_str)))

解析woff文件得到一定顺序的编码集再结合在FontCreator中的字符集得到字符编码字典,在我们解析HTML源码的时候替换就行了。

{'uniE032': '8', 'uniE200': '验', 'uniE267': '杨', 'uniE2DF': '女', 'uniE34E': '3', 'uniE39C': '届', 
'uniE42A': '7', 'uniE481': '男', 'uniE51F': '高', 'uniE555': '赵
', 'uniE595': '6', 'uniE608': '2', 'uniE6CD': '下', 'uniE72D': '以', 'uniE7C1': '技', 'uniE7C6': '黄', 
'uniE7D3': '周', 'uniE841': '4', 'uniE84B': '经', 'uniE8A4': '专', 'uniE8E6': '硕', 'uniE8F4': '刘', 
'uniE906': '吴', 'uniE9CF': '陈', 'uniEA8F': '士', 'uniEB2C': 'E', 'uniEBBA': '5', 'uniEBE2': '中', 'uniED0E': '博',
 'uniEF3E': '1', 'uniF003': '科', 'uniF012': '大', 'uniF01A': '9', 'uniF02F': '本', 
'uniF0D7': '王', 'uniF160': 'B', 'uniF180': '无', 'uniF205': '李', 'uniF2A0': '应', 'uniF3B5': '生', 'uniF501': '校',
 'uniF6E9': 'A', 'uniF71C': '0', 'uniF76F': '张', 'uniF877': 'M'}

这就是最早的字体反爬,也最简单。

阶段二:字体信息不换,动态更换字符编码

a:
写死的woff文件太容易让人解析,那就每次都更换新的woff文件,woff文件不更换字体信息,只更换字符编码,
这样,每次的字符编码都不一样,解析的时候就不能使用同一套字符编码字典去解析了。
b:
什么意思呢?也就是我们连续两次请求的同一个字符却有不同的编码,换个思路想一想
坐标。


同一个字符他们的字体的关键点的坐标是不变的,就像我们在FontCreator点开某个字符看的的一样
为了得到每个字的坐标点参数,我们需要把woff文件转换成xml文件

from pathlib import Path
from fontTools.ttLib import TTFont

font1_path = Path(__file__).absolute().parent/"fonts/font_1.xml"
font2_path = Path(__file__).absolute().parent/"fonts/font_2.xml"
woff1_path = Path(__file__).absolute().parent/"fonts/c6bf83459074415cf2518fa0597ada382276.woff"
woff2_path = Path(__file__).absolute().parent/"fonts/c6bf83459074415cf2518fa0597ada382276.woff"
font_1 = TTFont(woff1_path)
font_2 = TTFont(woff2_path)
font_1.saveXML(font1_path)
font_2.saveXML(font2_path)

仔细关系xml,我们可以看到,虽然这两个字符的坐标不一样,但是从旧字符根据一定的偏移量可以得到新字符,所以我们破解这一代字体反爬的手段可以是把最先的字符和字符的坐标保留下来,
之后请求得到的字符和字符坐标,根据一定量的偏移去匹配是否是同一个字,类似这样

from pathlib import Path
from fontTools.ttLib import TTFont

woff1_path = Path(__file__).absolute().parent/"base64 (1).woff"
woff2_path = Path(__file__).absolute().parent/"base64 (2).woff"
font_1 = TTFont(woff1_path)
font_2 = TTFont(woff2_path)
font_old_order = font_1.getGlyphOrder()[2:] #过滤掉前两个不需要的
font_new_order = font_2.getGlyphOrder()[2:]


def get_font_flags(font_glyphorder, font_ttf):
    f = {}
    for i in font_glyphorder:
        flags = font_ttf['glyf'][i]
        if "flags" in flags.__dict__:
            f[tuple(list(flags.flags))] = i
    return f

def comp(arr1, arr2):
    if len(arr1) != len(arr2):
        return 0
    for i in range(len(arr2)):
        if arr1[i] != arr2[i]:
            return 0
    return 1

def get_old_new_mapping():
    old, new = get_font_flags(font_glyphorder=font_old_order, font_ttf=font_1), get_font_flags(
        font_glyphorder=font_new_order, font_ttf=font_2)
    result_dict = {}
    for key1, value1 in old.items():
        for key2, value2 in new.items():
            if comp(key1, key2):
                result_dict[value1] = value2
    return result_dict

print(get_old_new_mapping())

我们会得到新旧两个字符的映射

{'uniE032': 'uniF889', 'uniE595': 'uniEB52', 'uniF01A': 'uniF07A', 'uniF71C': 'uniEBDE'}

这里进行替换操作就可以了。

阶段三:有了动态的编码,再搞个动态字体坐标?

a:
动态更换字符编码集也能根据字体坐标来破解,要是新旧两个字符的坐标不是按照一定的偏移量来做的呢?
例如我们新的字符和旧的字符的字体不一样,新的字体做了一定量的变形,导致某些坐标的缺少以及坐标的偏移量不一致,
所以可以做几百套不同字体坐标,不同字符编码的动态字体集(我真的牛批)。

b:
之前看到有大佬使用KNN来做,是个好想法,而且也不用去识别图片成汉字,资源消耗和速率上相对来说会小点,原理就是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。放在字体这个例子中,就是新字体文件中哪个字符离旧字体文件中的某个字符距离较近,它就属于这个字符的类别,也就是和这个字符是一样的。

字体反爬整体演变历程大概就是这样,还有一些会对@font-face的加密上面,比如对字体文件的地址做基本的Js加密等等什么的,这就只能针对分析了。下一篇会针对某眼做实战分析

参考:https://blog.csdn.net/weixin_43116910/article/details/103439930

转载请注明转自:https://blog.csdn.net/Owen_goodman/article/details/105490137

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值