汽车之家字体加密破解(CSS样式反爬)

废话不说多,直接切入主题。

能来到这里的应该都已经发现汽车之家论坛以及一些频道的网页源码是这种:

刚看到这里的时候,想到刚学爬虫时所听说的CSS样式反爬,没错,就是这个。破解方法就是破解其字体文件即可,通过Chrome抓包找到一个.ttf的请求,可以得知这是字体文件为一次单独的请求。在源码中搜索ttf,即可找到ttf字体文件的url。

刚开始的想法时构造一个字典,形成映射,后续的爬取工作都使用这个字典,但后来发现这个字体文件并不是一直不变的,用一个页面定期会变,不同的页面也不一致,所以只能取动态的解析字体文件。

要想解析字体文件,首先要能打开,百度了一下,找到一个软件Font-Logic FontCreator,自行下载安装。

打开多个下载的ttf文件发现字体为固定的38个字,如下

每次会变的是字体的标号(字体上的字符串)与位置,且标号可与源码中的css属性形成映射。

现在要想的是,如何让Python识别字体文件----Python三方包 fontTools。该三方包提供了读取与解析字体文件的功能,但是无法直接读取到文字,但我们可以通过其提供的一些方法来解析。

fontTools提供了将ttf文件转成xml文件的方法,用法如下

# -*- coding:utf-8 -*-
from fontTools.ttLib import TTFont
font = TTFont("ChcCRVsUz32AW2kIAABj_Jd6AiI93..ttf")
font.saveXML("a.xml")

查看xml文件,可以看到一些字体的信息,正是勾勒字体的坐标点,一个字体在不同的字体文件中的编码可能不一致,但是勾勒出字体的一些坐标信息肯定会差距很小,所以我们可以获得一个已知的字体坐标集合,以后下载字体后与已有的进行对比就可以很快捷的解析出所有问题,再根据name值替换html源码中的标签。

最终结构化数据抽取结果

代码的实现很简单,有兴趣的可以尝试一下,如果遇到什么问题可以在下方留言。

现已解决所有问题,实现论坛全量爬取。

代码地址:https://gitee.com/wf931202/AutoHomeSpider

需要将overwrite里的连个py文件替换到fonttools包中对应的文件,该版本只能实现单例运行,大规模抓取需要进行一些列优化。

----------------------------------------------------------------------------------------------------------------------------

汽车之家口碑网页版的反爬与上面的不一样,可以采用移动端,字体库也与论坛的有些出入,需要重新生成一个,结果在koubei_font.py内。

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值