爬虫技术-字体反爬

文本混淆章节

1. 文本混淆简介

简单而言就是利用前端技术干扰,页面可以正常展示,而使用爬虫下载后无法提取正常的数据。

1.1 常见的干扰方式
  • 字体反爬

2. 字体反爬

2.1 字体反爬简介

​ 在 CSS3 之前,Web 开发者必须使用用户计算机上已有的字体。目前的技术开发者可以使用@font-face为网页指定字体,开发者可将心仪的字体文件放在 Web 服务器上,并在 CSS 样式中使用它。用户使用浏览器访问 Web应用时,对应的字体会被浏览器下载到用户的计算机上。

注:使用自动化selenium也无法获取正常的数据

3. 某习字体反爬实践

3.1 逆向目标
3.2 逆向分析
3.2.1 网页分析
  • 打开网站可以发现,价格的字体是乱码

image

3.2.2 页面处理
  • 在页面源代码中搜索font-face关键字,可以发现字体文件在网页源代码中

image

  • 可以在网络抓包里面进行筛选,可以发现这里面有对应的字体文件加载地址,由后端返回

image

  • 对于字体文件,可以直接使用工具解析
    • 在线地址:http://font.qqe2.com/
      • 使用方式:
        • 下载字体文件到本地目录
        • 访问在线工具网站,点击左上角打开,找到本地目录字体文件即可

image

3.3.3 字体分析

正常在网页里面展示的薪酬是:image

  • 下载后的页面元素

image

  • 解析的字体文件

image

  • woff文件转化成xml文件进行分析 cmap是关键 原来
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值