文本混淆章节
1. 文本混淆简介
简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。
1.1 常见的干扰方式
- 字体反爬
2. 字体反爬
2.1 字体反爬简介
在 CSS3
之前,Web
开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face
为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在 CSS
样式中使用它。用户使用浏览器访问 Web应用
时,对应的字体会被浏览器下载到用户的计算机上。
注:使用自动化selenium
也无法获取正常的数据
3. 某习字体反爬实践
3.1 逆向目标
- 首页:https://www.shixiseng.com/
- 目标:https://www.shixiseng.com/interns?keyword=产品&city=全国&type=intern&from=menu
- 逆向:薪酬字体
3.2 逆向分析
3.2.1 网页分析
- 打开网站可以发现,价格的字体是乱码
3.2.2 页面处理
- 在页面源代码中搜索
font-face
关键字,可以发现字体文件在网页源代码中
- 可以在网络抓包里面进行筛选,可以发现这里面有对应的字体文件加载地址,由后端返回
- 对于字体文件,可以直接使用工具解析
- 在线地址:http://font.qqe2.com/
- 使用方式:
- 下载字体文件到本地目录
- 访问在线工具网站,点击左上角打开,找到本地目录字体文件即可
- 使用方式:
- 在线地址:http://font.qqe2.com/
3.3.3 字体分析
正常在网页里面展示的薪酬是:
- 下载后的页面元素
- 解析的字体文件
woff
文件转化成xml
文件进行分析cmap
是关键 原来