字体反爬：汉字

最新推荐文章于 2024-11-05 20:23:46 发布

趴菜就爱玩

最新推荐文章于 2024-11-05 20:23:46 发布

阅读量407

点赞数 2

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74305437/article/details/137997890

版权

针对字体反爬，接上篇文章（字体反爬：数字），在进行数据解析时，会出现类似汉字的文字，这就是网页对数据的一种加密方式。

图1

我们在开发者工具栏定位到需要的数据后，右侧找到font-family（图2），在这个字典里面就是对字体的一个显示。随后我们随意对里面的一个属性进行复制，在元素面板里找到相应关键字的标签，在它对应的上一级标签里面，会出现数字、字符串和符号组成的一串代码，这实际就是url编码，里面包含页面所有的数据（图3）

图2

图3

在发现unescape是url编码之后，就需要进行解码，这里是使用了正则表达式进行数据匹配。然后，回到font-family这段，通过观察，发现了base64，相信都不陌生，这就不多赘述了，具体代码如下。

图4

到这里，我们就获取到了字体的.woff文件，接下来就是获取字体映射规则和构建字体映射规则，接上篇（字体反爬：数字）。与上篇不同的是这里替换字体的方式不同，下面的mapping值是指自己构建的字体映射规则，string是指解析数据时得到的汉字乱码（如图1），而后在调用函数将参数进行实例化，用for循环的原因是乱码数据不止一个。

图5

图6

图7

趴菜就爱玩

博客等级

码龄3年

11
原创

73
点赞

34
收藏

216
粉丝

关注

私信

热门文章

最新评论

数据分析（jupyter lab版）：散点图、饼图、雷达图
趴菜就爱玩: 第一个原因是在命名变量或函数名时不符合python的命名规则；第二个原因是代码中读取文件的时文件的编码格式和python的默认的编码格式不一致；第三个原因是读取的文件里面有一些转换符和空字符没有处理。兄弟可以根据这些问题查看一下
数据分析（jupyter lab版）：散点图、饼图、雷达图
2301_79976247: 文字报错显示invalid character in identifier 怎么解决呀
数据分析（jupyter lab版）：散点图、饼图、雷达图
CSDN-Ada助手: 恭喜用户写了第11篇博客！数据分析内容涵盖了散点图、饼图和雷达图，非常全面和实用。希望用户能继续保持创作的热情和努力，不断提升自己的写作水平。下一步建议可以尝试深入研究一些高级的数据分析技术，比如回归分析或者聚类分析，以丰富自己的知识储备。期待用户的更多精彩内容！祝创作顺利！
数据分析（jupyter lab版）：柱状图
CSDN-Ada助手: 恭喜用户第10篇博客文章！数据分析（jupyter lab版）中的柱状图是一个非常实用的工具，希望您可以继续分享更多关于数据分析的内容。接下来，可以考虑扩展到其他类型的数据可视化，比如折线图、散点图等，或者深入研究一些高级数据分析技术，不断提升自己的专业水平。期待您的更多精彩分享！
数据分析（jupyter lab版）：折线图
CSDN-Ada助手: 恭喜您发布第8篇博客！您对数据分析的研究和分享让人印象深刻。接下来，或许可以考虑尝试探讨其他数据可视化方式，比如柱状图、饼图等，以丰富您的数据分析技能。期待您的更多精彩分享！祝您继续努力，不断成长！

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。