爬虫之遇到woff字体反爬

retime123

已于 2022-12-16 11:13:48 修改

阅读量920

点赞数 1

分类专栏： python scrapy 图片识别文章标签：爬虫

于 2022-12-13 10:13:59 首次发布

本文链接：https://blog.csdn.net/qq_24760381/article/details/128297597

版权

本篇博文的主题就是处理字体反爬，其实这种网上已经很多了，只是这次有点不一样，处理方式变化了点，记录一下。

以python3.7为基础

直接干货：

网站是json数据返回的：

这个网站有个好玩的地方，直接请求目标api，是不给数据的，要先请求生成woff名的api，才能请求目标数据，通过woff名，我们把woff文件下载下来分析，为了保证分析的准确性，我们要多下载几个woff文件，然后我们用 fontcreator 打开看下：

可看出3个文件，前面3个是固定的，后面是不固定的，这个就需要重点分析了！

结论：

每次页面加载的字体文件都不是同一个
某一个字体对象的命名方式不一样
同一个字体对应的像素坐标会有微妙的变化（观察了多个样本，每个字体像素点xy坐标的差距都不大于55）
同一个字体的像素点个数是一样的

下面是我的处理方法：

一、转化成图片，然后识别：

from fontTools.ttLib import TTFont
import pygame
import os,io
import ddddocr


# rFontPath = r'4a402e1e1e119dd418b8afe5cfd7bdc8.woff'
# rFontPath = '8e7e2d0f6f89b10b580b9d56583f4

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

retime123

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
爬虫之遇到woff字体反爬

本篇博文的主题就是处理字体反爬，其实这种网上已经很多了，只是这次有点不一样，处理方式变化了点，记录一下。
复制链接

扫一扫

专栏目录

【字体反爬虫】woff字体反爬虫实战

赖德发的博客

03-05

639

目标：http://www.porters.vip/confusion/movie.html 目标是抓取用户评分，评分人数，累计票房，三个字段。简单一看很简单是不是，我们查看源代码，发现不是那么容易。跟我们看到的并非如此啊。这是什么操作，仔细分析网络请求，我们发现这是使用了字体反爬虫的技术，那么我们如何破解呢？首先我们得用网络请求这个字体文件，然后下载下来。 woff_url = 'http://www.porters.vip/confusion/font/movie.woff' woff = r

woff字体反爬实战，10分钟就能学会(ttf字体同理)

最新发布

Alan_山的专栏

05-21

434

解析woff文件，并将woff字体转为图片，并将字体编码与字体图片相对应，便于之后的数据解密解析。做数据获取安**时发现请求返回的数据跟woff字体有关，这里写一个使用OCR识别方法记，使用的是muggle_ocr，当然可以使用其他的图片识别技术。该部分代码仅用于学习使用。

poi 上传Excel(2003|2007)到服务器导入数据库

徐来的专栏

11-25

2441

项目需求通过Excel把数据导入数据库，一开始用的jxl，简单完成。后来发下远程下不能导入，给点路径找不到。因为服务器上面没有你路径所说的文件。更改程序：先把Excel上传到服务器，在服务器上读取Excel把数据导入数据库。上传用到的jar：commons-fileupload-1.2.1.jar Excel上传: DiskFileItemFactory fact

WOFF字体反爬之易车网

u013738666的博客

12-25

801

前言易车网链接：http://dianping.bitauto.com/sid_2384/koubei/2557927641943680 该页面评价加载了WOFF字体，在审核元素中查看，发现个别汉字无法正常显示，由此可推测该WOFF文件中，只有少数常用汉字被单独编码了。审核元素中无法正常显示的字，在源码中显示为“”格式，该格式为unicode编码。正文字体文件下载地址：htt...

2019-12-21 爬网页13-字体反爬(woff，fontTools，sklearn(knn))

weixin_42555985的博客

12-21

604

在爬网站时候，有时会遇到类似以下代码 <span class="stonefont">.</span> 然而网页上显示的是数字’9.5’，这其实是一种反扒机制–字体反爬。字体反爬，就是网站将一些关键字替换为网站自己的字体，这样在网页上字体会正常显示，但是当爬取下来的时候，经过字体加密的字符都是乱码的，无法查看。应对这种反...

woffxml解码猫眼网反爬虫机制的爬虫

08-10

woffxml解码猫眼网反爬虫机制的爬虫

woff文件字体解析分析+源码-易语言

06-14

反爬有时候你可能会遇到下面这种情况明明这个字以明文的形式呈现在眼前但复制粘贴确是乱码分析打开网页源码找到关键字可以发现标题下面一行字以【】开头的编码shift + c 跟中元素后可以发现这个字体编码指向...

woff2-parser:WOFF2字体解析器

05-16

woff2-parser WOFF2字体解析器安装 npm install woff2 - parser用法 var fs = require ( 'fs' ) ;var parser = require ( 'woff2-parser' ) ;fs . readFile ( 'font.woff2' , function ( err , contents ) {...

反爬用字体文件，橡皮擦专栏特供

01-28

反爬用字体文件，橡皮擦专栏特供 woff 格式包含1-10

PingFangSC字体压缩版(woff2)

06-22

提供了四个字重的压缩版，font-family 定义如下：苹方-简常规体 font-family: PingFangSC-Regular, sans-serif; 苹方-简细体 font-family: PingFangSC-Light, sans-serif; 苹方-简中黑体 font-family: PingFang...

爬虫woff字体反爬破解

suddle的博客

10-28

1667

好久没写爬虫了，最近发现很多网站都出现了woff字体反爬。百度找了一下，发现都要钱，只好默默说一声fuck 那么，只好自己破解了。好的，那么开始。如果你在抓去某个网站时候，抓下来的文字读不通，打开network你发现如此：而网页上的文字是：那么，就是加了woff字体反爬，这时候不要慌，慢慢来。首先找到你要抓的网页，打开network，找到找到woff字体文件，然后转换成xml文件，转换代码是` #encoding: utf-8 from fontTools.ttLib import TTFo

我去！爬虫遇到字体反爬，哭了

公众号：Python研究者

06-06

607

大家好，我是辰哥今天准备爬取某某点评店铺信息时，遇到了『字体』反爬。比如这样的：还有这样的：可以看到这些字体已经被加密（反爬）竟然遇到这种情况，那辰哥就带大家如何去解决这类反爬（字体反爬类...

python-爬虫-woff静态字体-映射方法之一（大众点评字形与编码的对应关系）

wmjf1的博客

05-12

2277

woff字体可在font editor查看映射关系思路： 1、通过selenium截取整个页面 2、使用Image截取每个字体， 3、使用图片识别技术（推荐百度云文字识别） import os from time import sleep from PIL import Image from selenium import webdriver driver = webdriver.Chrome('D:\chromedriver_win32\chromedriver.exe') driver.get

python爬虫之woff 超详细 woff字体反扒起点woff爬虫字体爬虫起点中文网woff

m0_46631208的博客

07-01

2586

前言：这一期，是针对起点中文网的作品详情页爬取，这是对woff反爬的入门，相对美团之类的字体反爬容易一些。短短的几十行代码，逻辑清晰！让你欲罢不能的关注我！有人就要说了，我已经会爬取小说内容，干嘛要爬它，我还是那句话，一切为了提高自己技术！一：分析页面今天的主角就是《明朝败家子》这本书确实写得很不错！代入感很强，最主要喜欢大明王朝！额~跑题了！???? 1）打开开发者工具，看到这儿字体显示不出来，请求出来也是一个&#xxxxx；这儿就是反扒机制：woff 2）woff文件一般都在cs

字体反爬破解

makyking

07-18

1576

通过观察可以得出：网页显示后四位与xml中的code值后四位一样，对应的name值看起来也是unicode编码，也是拿后四位去验证。xml中的name值：uni5DE5 uni7A0B uni5E08。一般常见的为：ttf、eot、otf、woff、svg，可以使用。xml中的code值：0xed53 0xea63 0xe4e5。这里判断正确无误，底层通过css转换就是这个文件的文字。关闭对应的css样式可以看到，确实是做了字体反爬。例如这里python工程师。网页显示：  。

python 爬虫遇到字体加密解决方案(woff2) ddddocr + 百度ocr 文字识别

huagangwang的专栏

09-14

2629

爬虫遇到字体加密，字体解密。ddddocr + 百度ocr 文字识别

字体反爬

xkx_07_10的博客

09-06

1357

1.页面看到的文字实际由另一个字经过字体库映射而得 2.网页会在加载的时候载入字体库（可能有多个字体库），将此字体下载下来，通过font creator（字体工具）打开可以看到对应表，遍找到了映射关系。（笨方法到这直接对着写map就可以了） 3.用python 将.woff的字体文件转成 XML 读取其中的映射。下图为第一层映射，根据code 可以得到 name...

WinServer-IIS-woff字体不显示问题

05-30

这个问题通常是由于IIS无法正确处理woff字体文件所导致的。您可以尝试以下方法来解决该问题： 1. 确保您的服务器上已安装了woff字体文件的MIME类型。在IIS管理器中，选择服务器 -> MIME类型，确保.woff文件类型已被...

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交