自定义字符反爬

最新推荐文章于 2024-05-02 08:41:25 发布

半吊子Py全栈工程师

最新推荐文章于 2024-05-02 08:41:25 发布

阅读量775

点赞数

分类专栏：爬虫反爬虫文章标签：爬虫自定义字符汽车之家

爬虫同时被 2 个专栏收录

69 篇文章 4 订阅

订阅专栏

反爬虫

12 篇文章 1 订阅

订阅专栏

最近临时受命，要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域，但既然分到咱这儿了，那就上呗，有啥说的，谁让咱是“全栈工程师”呢（牛逼吹的大了点）。

原本公司已经有了一套字体反爬的机制，但效果还是不很理想。花了一周的时间进行研究，最终在现有反爬基础之上，总结了本文要讲的方案。

说是终极方案，是有些吹牛了，大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以增加普通爬虫的采集成本，在不使用OCR的前提下，算是比较极致的方案了。

直接说重点吧！

1、扫盲：

字体反爬也就是自定义字体反爬，通过调用自定义的ttf文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！

上图吧：

源码截图

页面展示效果

如图上面图片所看到的，爬虫是无法采集到编码后的文字内容，貌似起到了防爬的效果，呵呵，事实上这个只能防到简单的爬虫。一会我们再继续讲更深一层的防爬机制。

2、思路设计

讲到这里，细心的人会问，为什么不把所有的内容都替换成编码呢？这个就涉及到加载和渲染速度的问题。

我们知道，单纯汉字就有好几千个，如果全部放到自定义字体库中的话，这个文件会有灰常大，几十兆是肯定有的了，那后果啥样就很清楚了，加载肯定很慢，更糟糕的是如此之多的字体需要浏览器去渲染，那效果，OMG！（产品、运营愤怒的小拳头扑面而来）

好吧，这个时候就提现出我们高级程序的价值所在了（嗯、嗯，清清嗓子）。

为了解决这个问题，我们可以选择只渲染少量的、部分的文字，假设50个字，那么字体库就会小到几十K了，相当于一个小图片而已，加上CDN加速之类的，欧耶，解决了。

如此简单？No、No，表着急，童鞋。50个字儿呢可不是随便随便选择的，要选择那些爬虫采集不到就会很大改变整个语句的语义的词，直接点吧，也就是量词、否定词之类的。如原文“我有一头小毛驴，我从来都不骑”，我们把其中的“一”、“不”放到我们的自定义字库中，这样一来，爬虫采集到的就是“我有头小毛驴，我从来都骑”，OMG，这结果完美。嘿嘿，如果加上阿拉伯数字就更完美了，“猎豹以时速公里/小时的速度奔跑在非洲的大草原上”，同学，请问时速多少来着？哈哈哈，好爽.......

3、PK升级

“老李、老李，不行了，不行了。”运营扯着脖子喊到。

“什么玩意不行了，说清楚，一惊一乍的！”

“反爬、反爬不行了，数据被人采到了！”运营气喘吁吁的.....

哎妈呀，貌似方案挺完美的喽，怎么就轻易被爬虫采集到了呢？

Why？Fuck，还没开心一分钟呢，就被狠狠打脸了，怎么回事呢？

貌似自定义字体已经不能被采集到了，但事实可没这么简单呀，要知道，反爬工程师面对的可是N多个大牛群殴的状态，什么神箭手、Gooseeker，随便一个都是谷歌工程师出身的（买糕的，还让人活不啦）。

来，看看他们是怎么破的。

思路很简单，通过fonttools（python工具）将ttf文件转成ttx文件打开后，什么都明白了！

ttx代码

看到了吗，ed12的编码就是“是”字的unicode编码，这样一来，爬虫只要把采集到""直接替换成“是”字就可以了，以此类推，然后，没有然后了，啥都被采集到了，白忙了半天（我艹%#*%$##%^_+!>.........）。

这可如何是好呢？表急，办法总是有的！

如果让“是”字的编码随机变化，但字体信息不变，浏览器渲染出来还是“是”字那不就完美了，哎妈呀，太聪明了，对就这样干。

于是，每个网页加载的时候，都随机加载了一套字体库，字体库的内容还是50个字，但每个字的顺序编码都是变化的，爬虫也就无法用直接替换的方式进行采集了。

4、PK再次升级

“老李、老李，不行了，不行了。”运营又扯着脖子喊着。（我tmd真想掐死他）

“说，咋了！”

“反爬、反爬又不行了，又被人采到了！”运营无奈的看着我.....

好吧，兵来将挡水来土掩，还能咋滴，先看看情况再说。

原来，还是跟ttx有关，虽然我们打乱了关键字的编码顺序，但是每个字对应的字体信息是不变的，例如，“是”字一共有9划，每一笔划都有相应的x、y坐标信息，浏览器正是根据这些笔划信息渲染出对应的字的，看图：

爬虫工程师先手动下载了一个ttf文件，然后根据ttf文件中的文字图形位置再爬虫代码中做一个映射，然后使用程序动态获取到采集的每一篇文章，使用fonttools来循环对比本地之前下载的标本中的字体信息，对比一直，那就是某一个字，如此一来，反爬就轻松被破了。

细节可参考下面文章，我就不啰嗦了！

Python爬虫杂记 - 字体文件反爬（二）www.jianshu.com

那怎么办呢？只要肯用心，方法总比困难多呀！

既然你对比字体信息，ok，那我就把字型的信息给你随机了，让字变形，这样你就无法对比了，欧耶。看下变形后的图片：

变形后的字体，即便是下载了当前文章的字库，也需要手动去做字体和字的映射，那么多文章呢，手工匹配，显然是不可能的了。事实上，我们准备了几千套的字体，用于应对爬虫的采集，每次刷新文章，字体库就会更换，每篇文章的字体库都不一样，但是替换的文字都是一样的，这样以来，爬虫采集的难度就越来越高了。

反爬本来就是不归路，没有终点，有反爬就有反反爬；

最好的方案，就是让爬虫采集的成本不断增加，直到放弃，那么反爬也就算那是成功了。

至此，字体反爬策略已经基本达到了顶峰。

那么，这是终点吗？是终极方案吗？

OCR一脸奸笑的走来........

备注：

关于这个方案具体业务代码涉及公司利益，就不公布了。而反反爬的文章网上已经挺多了，就不罗列了！

大概思路：基于微软雅黑字库信息，抽取其中的关键字的字体信息，然后随机生成上千套字库，同时做好字与编码和字库文件的mapping关系，持久化到数据库，然后文章显示时随机从库中查询出一套字库，并把文章中的关键字替换成Unicode编码，over！

作者：笑看河山0371
链接：https://www.jianshu.com/p/4d28dd440cdd
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

半吊子Py全栈工程师

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自定义字符反爬

最近临时受命，要针对采集我司网站的爬虫进行反制。虽然不太熟悉这个领域，但既然分到咱这儿了，那就上呗，有啥说的，谁让咱是“全栈工程师”呢（牛逼吹的大了点）。原本公司已经有了一套字体反爬的机制，但效果还是不很理想。花了一周的时间进行研究，最终在现有反爬基础之上，总结了本文要讲的方案。说是终极方案，是有些吹牛了，大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以...
复制链接

扫一扫