1. 前言
最近接了一个私活,破解58同城的css反爬。(被鸽了)现在决定把它开源出来,以便大家参考学习。
2. 主题
首先,打开页面,了解到这部分信息是有字体加密的。如下图:
这部分信息包含 性别 年龄 学历 还有工作经验。 这部分信息需要经过转换,才能达到我们想要的数据。
可以看到它数据加密部分,都引用了一个叫stonefont的class,我们观察一下这个class
经过观察发现 这里引用了woff的一个字体文件, 我们把其中的base64编码部分提取出来,保存为一个.woff的文件。
python代码示例:
# -*- coding: utf-8 -*-
import base64
font_face = ''
b = base64.b64decode(font_face)
with open('zt01.woff', 'wb')as f:
f.write(b)
然后使用网站http://fontstore.baidu.com/static/editor/index.html 打开这个woff文件,如下图所示
可以看到每一个字都有对应的一个编码, 通过观察我们发现,这个编码后4位,跟在网页源代码中的编码是一致的。
我们可以用fontTools这个库去解析这个woff文件
# -*- coding: utf-8 -*-
from fontTools.ttLib import TTFont
font1 = TTFont('zt01.woff') # 打开本地字体文件01.ttf
uni_list = font1.getGlyphOrder()[2:] # 前两个不算
print(uni_list)
# 输出信息如下
# ['uniE0D1', 'uniE0EB', 'uniE165', 'uniE39A', 'uniE3CD', 'uniE3DC', 'uniE4E6', 'uniE559', 'uniE5CE', 'uniE6FE', 'uniE74A', 'uniE811', 'uniE822', 'uniE90F', 'uniE925', 'uniE9A9', 'uniE9EB', 'uniEB2C', 'uniEC43', 'uniEC4C', 'uniEC7A', 'uniED1F', 'uniED8C', 'uniEDDB', 'uniEE02', 'uniEE6F', 'uniEF0E', 'uniEF58', 'uniEFD2', 'uniF0EB', 'uniF129', 'uniF1A3', 'uniF31A', 'uniF373', 'uniF3A5', 'uniF403', 'uniF459', 'uniF52A', 'uniF547', 'uniF56E', 'uniF58B', 'uniF5DB', 'uniF625', 'uniF832', 'uniF88E']
这样我们就得到了网页中看到的编码。然后我们自己手动做个映射关系就行了。一共45个,花不了多长时间。网页中看到的前两个不算。
你以为到这里就结束了? Too Young Too Sample! 如果单纯是这样,那就太简单了。
后来观察发现(其实早就发现了[小声BB]),每刷新一次,woff对应的文件都不一样,源代码中的编码也会变化。那我们前面做的都没用了? 不是这样的。
重点来了:
我们任意保存两次请求网页的woff文件,然后保存为xml格式,静态分析一波。
保存为xml的代码:
from fontTools.ttLib import TTFont
font= TTFont("zt01.woff")
font.saveXML('zt01.xml')
xml文件展示:
注意了,前方高能!
我们在网页上打开这两个woff文件, 找到两个相同的文字,这里拿性别来举例,也就是 “男” 这个字。
在woff 1文件中,它的编码为
在woff 2文件中, 它的编码为
我们打开这两个woff文件对应的xml文件。分别根据编码找到这个字的具体描述部分
woff1对应的 ‘男’ :
woff 2 对应的男:
通过观察图中的pt值发现, 后一个pt标签中的x,y值 分别减去前一个pt标签的x,y值是一个固定值,就算切换woff文件,再去计算,仍满足这样的规律。 这里woff1的“男” 前两个pt的x,y值相减得到
(1786-198,1575-1575) => (1788,0). woff2的计算结果(1822-234,1611-1611)=>(1788,0)。
通过这个规律,我们就可以制作映射关系的字典啦。 用计算结果当成key,对应的汉字当作value。
# -*- coding: utf-8 -*-
from fontTools.ttLib import TTFont
zt1 = TTFont("zt01.woff")
# wods列表中网页上按顺序打出来
words = ['B', '男', '王', '大', '专', 'M', '女', '吴', '硕', '赵', '黄', '李', '1', '8', '经', '2', '下', '本', '届', '5', '应', '科', '7', '中', '生', '6', 'E', '陈', '3', '以', '杨', 'A', '张', '4', '无', '0', '9', '验', '博', '技', '士', '校', '高', '刘', '周']
uni_list = zt1.getGlyphNames()[1:-1]
data_map = dict()
for index, i in enumerate(uni_list):
temp = zt1["glyf"][i].coordinates
x1, y1 = temp[0]
x2, y2 = temp[1]
new = (x2-x1, y2-y1)
data_map[new] = words[index]
print(data_map)
ok, 到这里字典制作完毕。
后面抓取数据过程中 我们只需要 抽取抓取网页的woff文件, 计算每个以uni开头的值所对应的key值,根据key值到data_map里再取到文字。就可以制作当前抓取页面的 字体字典啦。
验证
完整代码: 传送门