字体反爬

python爬虫 专栏收录该内容
24 篇文章 0 订阅

字体反爬

  1. 网页开发者自己创造一种字体,因为在字体中每个文字都有其代号,那么以后在网页中不会直接显示这个文字的最终的效果,而是显示他的代号,因此即使获取到了网页中的文本内容,也只是获取到文字的代号,而不是文字本身。
  2. 因为创造字体费时费力,并且如果把中国3000多常用汉字都实现,那么这个字体将达到几十兆,也会影响网页的加载。一般情况下为了反爬虫,仅会针对0-9以及少数汉字进行自己单独创建,其他的还是使用用户系统中自带的字体。

字体反爬解决方法-寻找字体

  1. 一般情况下为了考虑网页渲染性能,通常网页开发者会把字体编码成base64的方式,因此我们可以到网页中找到@font-face属性,然后获取里面的base64代码,再用Python代码进行解码,然后再保存本地。示例: view-source:https://www.shixiseng.com/intern/inn_a7xabqqr4f9u
  2. 如果没有使用base64,还有另外一种方式,就是直接把字体文件放到服务器上,然后前端通过@font-face中的url函数进行加载。示例: https://developer.mozilla.org/zh-CN/docs/Web/CSS/@font-face
  3. 分析字体需要将字体转换成xml文件,然后查看其中的cmap和glyf中的属性。其中cmap存储的是code和name的映射,而glyf下存储的是每个name下的字体绘制规则。
  4. 从第1步中我们知道了name对应的字体的绘制规则,但是还是不知道字体是长什么样子,那么可以通过一款叫做FontCreator的软件来打开.tff的字体文件,这样就可以看到每个name对应的字体最终的呈现效果。(FontCreator是一款制作字体的工具,下载地址:https://www.high-logic.com/FontCreatorSetup-x64.exe 这款软件有30天的试用期)。
    在这里插入图片描述

字体反爬解决方法-根据映射关系获取真实内容

  1. 在网页中,直接显示的是字体的code,而不是name。并且网页开发者为了增加爬虫的难度,有可能在多次请求之间code->name->最终字体的映射会发生改变。但是最终字体的形状是不会改变的,因此我们可以通过形状对比来进行判断。

  2. 我们可以通过分析字体,得出每个字体形状对应的文字,然后保存到一个字典中。以后再请求网页的时候,就进行反向解析,先获取字体的形状,再通过字体形状反向获取代号所对应的具体文字内容。

在这里插入图片描述
在这里插入图片描述

实例 58同城:

import requests
import re
from lxml import etree
import io
import base64
from fontTools.ttLib import TTFont

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36',
    'Referer': 'https://www.shixiseng.com/interns?k=python&p=1',
}

# font_face代表的是经过base64编码后的字符串,他本是是一个字体文件
font_face = ''
# 所以我们需要通过base64进行解码,还原回这个字体文件
font_bytes = io.BytesIO(base64.b64decode(font_face))
# 有这个字体bytes数据后,就可以使用TTFont来创建一个可以操作这个字体的对象
baseFont = TTFont(font_bytes)
# 获取所有字体的形状对象
baseGlyf = baseFont['glyf']

# 建立一个内容和字体形状的映射
baseFontMap = {
    0: baseGlyf['uni30'],
    1: baseGlyf['uni31'],
    2: baseGlyf['uni32'],
    3: baseGlyf['uni33'],
    4: baseGlyf['uni34'],
    5: baseGlyf['uni35'],
    6: baseGlyf['uni36'],
    7: baseGlyf['uni37'],
    8: baseGlyf['uni38'],
    9: baseGlyf['uni39']
}

# 去爬取网页
url = "https://www.shixiseng.com/intern/inn_a7xabqqr4f9u"
resp = requests.get(url,headers=headers)
text = resp.text
# 抓取出当前网页的字体文件
result = re.search(r'font-family:myFont; src: url\("data:application/octet-stream;base64,(.+?)"\)',text)
font_face = result.group(1)
b = base64.b64decode(font_face)
currentFont = TTFont(io.BytesIO(b))
# 获取当前网页的字体的所有字体的形状
currentGlyf = currentFont['glyf']
# 获取字体的code和name的映射
codeNameMap = currentFont.getBestCmap()
# 循环code和name
for code,name in codeNameMap.items():
    # 先获取到当前网页,某个name下的形状
    currentShape = currentGlyf[name]
    # currentShape.coordinates
    # 循环内容和形状的字典
    for number,shape in baseFontMap.items():
        # 看下循环后的shape是否和当前的shape相当
        # 如果是相等,那么就可以找到code与内容的映射
        if shape == currentShape:
            # 构建网页中的code
            webcode = str(hex(code)).replace("0","&#",1)
            # 把网页中的code值替换成数字
            text = re.sub(webcode,str(number),text)

print(text)




  • 0
    点赞
  • 0
    评论
  • 2
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

<p> <span style="font-size:14px;color:#337FE5;">【为什么学爬虫?】</span> </p> <p> <span style="font-size:14px;">       1、爬虫入手容易,但是深入较难,如何写出高效率的爬虫,如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中,经常容易遇到被反爬虫,比如字体反爬、IP识别、验证码等,如何层层攻克难点拿到想要的数据,这门课程,你都能学到!</span> </p> <p> <span style="font-size:14px;">       2、如果是作为一个其他行业的开发者,比如app开发,web开发,学习爬虫能让你加强对技术的认知,能够开发出更加安全的软件和网站</span> </p> <p> <br /> </p> <span style="font-size:14px;color:#337FE5;">【课程设计】</span> <p class="ql-long-10663260"> <span> </span> </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 一个完整的爬虫程序,无论大小,总体来说可以分成三个步骤,分别是: </p> <ol> <li class="" style="font-size:11pt;color:#494949;"> 网络请求:模拟浏览器的行为从网上抓取数据。 </li> <li class="" style="font-size:11pt;color:#494949;"> 数据解析:将请求下来的数据进行过滤,提取我们想要的数据。 </li> <li class="" style="font-size:11pt;color:#494949;"> 数据存储:将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。 </li> </ol> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 那么本课程也是按照这几个步骤循序渐进的进行讲解,带领学生完整的掌握每个步骤的技术。另外,因为爬虫的多样性,在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性,分别是: </p> <ol> <li class="" style="font-size:11pt;color:#494949;"> 爬虫进阶:包括IP代理,多线程爬虫,图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。 </li> <li class="" style="font-size:11pt;color:#494949;"> Scrapy和分布式爬虫:Scrapy框架、Scrapy-redis组件、分布式爬虫等。 </li> </ol> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 通过爬虫进阶的知识点我们能应付大量的反爬网站,而Scrapy框架作为一个专业的爬虫框架,使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求,我们可以用分布式爬虫让多台机器帮助你快速爬取数据。 </p> <p style="font-size:11pt;color:#494949;">   </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> 从基础爬虫到商业化应用爬虫,本套课程满足您的所有需求! </p> <p class="ql-long-26664262" style="font-size:11pt;color:#494949;"> <br /> </p> <p> <br /> </p> <p> <span style="font-size:14px;background-color:#FFFFFF;color:#337FE5;">【课程服务】</span> </p> <p> <span style="font-size:14px;">专属付费社群+定期答疑</span> </p> <p> <br /> </p> <p class="ql-long-24357476"> <span style="font-size:16px;"><br /> </span> </p> <p> <br /> </p> <p class="ql-long-24357476"> <span style="font-size:16px;"></span> </p>
参与评论 您还未登录,请先 登录 后发表或查看评论
©️2022 CSDN 皮肤主题:书香水墨 设计师:CSDN官方博客 返回首页

打赏作者

Garrick不想996

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值