爬虫技术-字体反爬

最新推荐文章于 2024-05-05 12:44:07 发布

尘世风

最新推荐文章于 2024-05-05 12:44:07 发布

阅读量1.7k

点赞数 2

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shifengboy/article/details/127237009

版权

文本混淆章节

1. 文本混淆简介

简单而言就是利用前端技术干扰，页面可以正常展示，而使用爬虫下载后无法提取正常的数据。

1.1 常见的干扰方式

字体反爬

2. 字体反爬

2.1 字体反爬简介

在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face为网页指定字体，开发者可将心仪的字体文件放在 Web 服务器上，并在 CSS 样式中使用它。用户使用浏览器访问 Web应用时，对应的字体会被浏览器下载到用户的计算机上。

注：使用自动化selenium也无法获取正常的数据

3. 某习字体反爬实践

3.1 逆向目标

首页：https://www.shixiseng.com/
目标：https://www.shixiseng.com/interns?keyword=产品&city=全国&type=intern&from=menu
逆向：薪酬字体

3.2 逆向分析

3.2.1 网页分析

打开网站可以发现，价格的字体是乱码

3.2.2 页面处理

在页面源代码中搜索font-face关键字，可以发现字体文件在网页源代码中

可以在网络抓包里面进行筛选，可以发现这里面有对应的字体文件加载地址，由后端返回

对于字体文件，可以直接使用工具解析
- 在线地址：http://font.qqe2.com/
  - 使用方式:
    - 下载字体文件到本地目录
    - 访问在线工具网站，点击左上角打开，找到本地目录字体文件即可

3.3.3 字体分析

正常在网页里面展示的薪酬是：

下载后的页面元素

解析的字体文件

woff文件转化成xml文件进行分析 cmap是关键原来是

最低0.47元/天解锁文章

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
爬虫技术-字体反爬

文本混淆章节1. 文本混淆简介简单而言就是利用前端技术干扰，页面可以正常展示，而使用爬虫下载后无法提取正常的数据。1.1 常见的干扰方式字体反爬2. 字体反爬2.1 字体反爬简介在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face为网页指定字体，开发者可将心仪的字体文件放在 Web 服务器上，并在 CSS 样式中...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。