反爬虫--字体库加密案例分析

李念川

于 2024-02-20 20:22:40 发布

阅读量1.1k

点赞数 9

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62612641/article/details/136197826

版权

使用爬虫时发现有两个网站均使用的字体库加密，但是各自都在此基础上进行了反爬虫优化，浅浅记录一下。

1、字体库加密（字体加密对应不固定

网站对字体通过调整“font-face”的base64编码实现随机字体加密，有效针对爬虫

解决思路：获取某一元素的font-family对应到相应的font-face，处理后保存为ttf文件，再使用TTFont提取后进行一系列处理，在对文本内容进行纠正，实现内容爬取。

由于字体随机加密，对应不固定，个人认为有以下两种解决思路：

①多次爬取进行人工筛检，若发现实际字体库中存有总字体较少，则提取各个字体外形某特征进行存储，再次爬取新内容时通过该特征确定实际显示文字，将unicode与实际显示进行关联，后以此对文本内容进行纠正。

②若字体数量较多，可引入ocr进行识别，以此将unicode与实际显示进行关联

2、字体库加密+伪元素content

网站对字体加密通过ttf文件进行存储，加密前后对应相对固定，与上一个不同的是通过伪元素存储了部分文字

解决思路：个人认为，通过正则匹配可有效提取出为元素中的文字再通过适当的方式调整至准确位置，总体思路与代码应该都不会太难（未实践。

小结

字体库加密是很常见的反爬虫方法，感觉若是将上述两种方法再进行结合效果会更好，也很期待在ai的不断发展与落地下反爬虫又将会有怎么样的新颖更有效的方法。

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
反爬虫--字体库加密案例分析

使用爬虫时发现有两个网站均使用的字体库加密，但是各自都在此基础上进行了反爬虫优化，浅浅记录一下。
复制链接

扫一扫

李念川 CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

123万+: 周排名

10万+: 总排名

1万+: 访问

: 等级

187: 积分

39: 粉丝

64: 获赞

5: 评论

48: 收藏

私信

关注

热门文章

最新评论

Vue自用踩坑点分析
CSDN-Ada助手: 恭喜你写了第8篇博客！对于Vue自用踩坑点的分析，我觉得你做得非常棒！不过，我希望你能在接下来的博客中，多分享一些解决踩坑点的经验和技巧，这样可以帮助更多的人解决类似的问题。期待你的下一篇博客！加油！
leaflet.canvaslayer.field.js使用时遇到的问题
CSDN-Ada助手: 恭喜您写了第6篇博客！标题“leaflet.canvaslayer.field.js使用时遇到的问题”引起了我的兴趣。通过分享您在使用leaflet.canvaslayer.field.js时遇到的问题，不仅可以帮助其他读者解决类似的困惑，还展示了您对技术的深入研究。对于下一步的创作建议，我建议您可以进一步探索leaflet.canvaslayer.field.js，尝试解决问题时遇到的挑战，并分享您的解决方案。此外，您还可以考虑分享一些关于优化代码性能、提高用户体验的技巧，或者介绍一些与leaflet.canvaslayer.field.js相关的其他插件或工具，以便读者可以更全面地了解这个主题。希望您能继续保持创作的热情，并期待您未来更多精彩的博客！
leaflet.canvaslayer.field.js使用时遇到的问题
m0_68617328: 真棒，有所收获

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。