爬虫之遇到woff字体反爬

本篇博文的主题就是处理字体反爬,其实这种网上已经很多了,只是这次有点不一样,处理方式变化了点,记录一下。

以python3.7为基础

直接干货:

网站是json数据返回的: 

这个网站有个好玩的地方,直接请求目标api,是不给数据的,要先请求生成woff名的api,才能请求目标数据,通过woff名,我们把woff文件下载下来分析,为了保证分析的准确性,我们要多下载几个woff文件,然后我们用 fontcreator 打开看下:

 

 

 

 可看出3个文件,前面3个是固定的,后面是不固定的,这个就需要重点分析了!

结论:

  • 每次页面加载的字体文件都不是同一个
  • 某一个字体对象的命名方式不一样
  • 同一个字体对应的像素坐标会有微妙的变化(观察了多个样本,每个字体像素点xy坐标的差距都不大于55)
  • 同一个字体的像素点个数是一样的

下面是我的处理方法:

一、转化成图片,然后识别:

from fontTools.ttLib import TTFont
import pygame
import os,io
import ddddocr


# rFontPath = r'4a402e1e1e119dd418b8afe5cfd7bdc8.woff'
# rFontPath = '8e7e2d0f6f89b10b580b9d56583f4
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值