字体反爬虫

最新推荐文章于 2023-04-16 19:25:55 发布

VIP文章 weixin_35688430

最新推荐文章于 2023-04-16 19:25:55 发布

阅读量292

点赞数

分类专栏：网络安全

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35688430/article/details/119139038

版权

字体基础

\1. 安装字体命令

yum -y install fontconfig

\2. 查看已安装字体

(1) 查看linux已安装字体

fc-list

(2) 查看安装的中文字体

fc-list :lang=zh

\3. 安装需要的字体

(1) 创建目录

mkdir -p /usr/share/fonts/my_fonts

(2) 将要安装的字体上传到该文件夹下

(3) 获取相关字体，以 windows 为例上传到刚刚创建的文件夹下

进入C:\Windows\Fonts，该文件夹下就存放相关字体，将需要字体拷贝到linux 目录/usr/share/fonts/my_fonts下即可

(4) 安装字体索引指令

yum install mkfontscale

(5) 生成字体索引

mkfontscale

(6) 查看是否安装成功

fc-list :lang=zh

字体反爬虫

反爬虫和爬虫之间的较量已经争斗多年，不管是攻还是守，已经持续N年，这是一个没有硝烟的战场，大家都知道爬虫和反爬之家的道高一尺魔高一丈的关系。但这个方案可以很大程度上可以增加普通爬虫的采集成本，在不使用OCR的前提下，算是比较极致的方案了。当然方案有很多种，层出不穷的各种方法，这里介绍的时候反爬虫的中的一种比较实用的方案，字体反爬也就是自定义字体反爬通过调用自定义的ttf文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容！必须通过程序去处理才能达到采集成本。

效果展示！

思路

细心的人会问，为什么不把所有的内容都替换成编码呢？这个就涉及到加载和渲染速度的问题。还有如果启动字体反爬虫，基本上已经告别SEO了，请仔细考虑中间的厉害关系，你懂得!

我们知道，单纯汉字就有好几千个，还有各种字符，有的还包含各种外国人的字符串！如果全部放到自定义字体库中的话，这个文件灰常大，几十兆是肯定有的了，那后果啥样就很清楚了，加载肯定很慢，更糟糕的是如此之多的字体需要浏览器去渲染，那效果，卡到爆！！！

为了解决这个问题，我们可以选择只渲染少量的、部分的文字，假设50个字，那么字体库就会小到几十K了，相当于一个小图片而已，加上CDN加速之类的，解决了。具体网络上又N种方法参考方法我会贴在下面！

如此简单？50个字儿呢可不是随便随便选择的，要选择那些爬虫采集不到就会很大改变整个语句的语义的词，直接点吧，也就是量词、否定词之类的。如原文“我有一头朱佩琪，我从来都不骑”，我们把其中的“一”、“不”放到我们

最低0.47元/天解锁文章

weixin_35688430

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字体反爬虫

字体基础\1. 安装字体命令yum -y install fontconfig\2. 查看已安装字体(1) 查看linux已安装字体fc-list(2) 查看安装的中文字体fc-list :lang=zh\3. 安装需要的字体(1) 创建目录mkdir -p /usr/share/fonts/my_fonts(2) 将要安装的字体上传到该文件夹下(3) 获取相关字体，以 windows 为例上传到刚
复制链接

扫一扫

专栏目录

weixin_35688430 CSDN认证博客专家 CSDN认证企业博客

码龄8年

170: 原创

24万+: 周排名

76万+: 总排名

20万+: 访问

: 等级

2084: 积分

92: 粉丝

106: 获赞

33: 评论

613: 收藏

私信

关注

热门文章

分类专栏

java编程 63篇
网络安全 9篇
DevOps 29篇
大数据 39篇
云计算 22篇
python编程 48篇

最新评论

SpringBoot - 网络请求客户端WebClient使用详解
肥牛熟了熟了: 为啥我报500
python 网络编程socket (九)
无水先生: 拭目以待。
监控数据指标kafka-metrics Prometheus（二）
Damon大文: 那个json一点都不好复制，主要格式还有问题
监控数据指标 PushGateway 配置 Prometheus （七）
ImStarBoy: 听不懂你说什么
SpringBoot - 使用Spring Data JPA操作数据库
dzdffg: ”注意：在第一个 DataSource 上还标注了 @Primary 注解。否则程序启动时会报 Parameter 0 of method entityManagerFactoryBeanOne in com.example.demo.config.JpaConfigOne required a bean of type 'org.springframework.boot.orm.jpa.EntityManagerFactoryBuilder' that could not be found. 错误” 非常好

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。