猿人学web端爬虫攻防平台第七题动态字体

本人呢很喜欢爬虫,但是技术不好,所以呢就一直慢慢的摸索着,也不知道那什么练手进行学习,直到我在偶然的机会接触到了猿人学,发现了 猿人学web端爬虫攻防平台这个网站,久旱逢甘霖,他乡遇故知呀(蹩脚的词语)也让我的爬虫技术有了很大的提升,今天呢我就说一下第七题,字体反爬(其他的题目我也有做,有时间也都会发表一下思路)

  1. 爬取的网站
    猿人学web端爬虫攻防平台第七题动态字体
    在这里插入图片描述
  2. 查看数据来源和加密方式
    在这里插入图片描述
    这就很方便了,数据和字体文件都在一起,
  3. 多次请求观察字体文件,可以看出文字都是一样的,只是顺序不一样,对应的name也不一样,所以是动态字体
    在这里插入图片描述
    通过观察同一个字的字形数据,发现on值都是一样的
    在这里插入图片描述
  4. 使用相同的数据进行构造映射
base_font={'font':[
    {'name':'ꢕ','value':'4','hex':'ec9467393c47041e0fafff7f4a2852a8'},
    {'name':'덁','value':'9','hex':'4119e3dc64f73251d40cf1fc0323e20f'},
    {'name':'뙃','value':'6','hex':'af603543300bfc5f0e35e941d4208759'},
    {'name':'뤗','value':'2','hex':'9bb92485b3e2ba4bd8a93ebbd3a0fa4e'},
    {'name':'숖','value':'0','hex':'0aef9a3385d96e7bdd1f3003669a940c'},
    {'name':'쎇','value':'3','hex':'b024173b00a3c901b6e696ba12812124'},
    {'name':'옷','value':'7','hex':'3dcfec8e26ef48730f25363da55da77a'},
    {'name':'','value':'1','hex':'2c0ec07331fa25dc226f1ca83561cb46'},
    {'name':'','value':'5','hex':'9ebca885e21990cee127d23d03acb3ac'},
    {'name':'','value':'8','hex':'f9d12372b7002b9a1522dd3dd142cf70'},
]}
  1. 每次请求都循环字体文件中的每个字的字形和提前做好的映射做比对,然后在源网页中进行替换

代码如下(对爬虫有兴趣的小伙伴,也可以做一下猿人学的题,还有glidedshy,scrape center等平台的题目,都很有营养) 个人建议,不喜勿喷

import re
import requests
import base64
from hashlib import md5
import json
from fontTools.ttLib import TTFont
headers = {"User-Agent": "yuanrenxue.project", }
url= 'http://match.yuanrenxue.com/api/match/7'
ret = requests.get(url,headers=headers)
ret_str = ret.text
wof = base64.b64decode(ret.json()['woff'])
with open('猿人学7.woff','wb') as f:
    f.write(wof)
font = TTFont('猿人学7.woff')
font.saveXML('猿人学7.xml')

base_font={'font':[
    {'name':'ꢕ','value':'4','hex':'ec9467393c47041e0fafff7f4a2852a8'},
    {'name':'덁','value':'9','hex':'4119e3dc64f73251d40cf1fc0323e20f'},
    {'name':'뙃','value':'6','hex':'af603543300bfc5f0e35e941d4208759'},
    {'name':'뤗','value':'2','hex':'9bb92485b3e2ba4bd8a93ebbd3a0fa4e'},
    {'name':'숖','value':'0','hex':'0aef9a3385d96e7bdd1f3003669a940c'},
    {'name':'쎇','value':'3','hex':'b024173b00a3c901b6e696ba12812124'},
    {'name':'옷','value':'7','hex':'3dcfec8e26ef48730f25363da55da77a'},
    {'name':'','value':'1','hex':'2c0ec07331fa25dc226f1ca83561cb46'},
    {'name':'','value':'5','hex':'9ebca885e21990cee127d23d03acb3ac'},
    {'name':'','value':'8','hex':'f9d12372b7002b9a1522dd3dd142cf70'},
]}
# print(font.getGlyphOrder())
# for i in base_font['font']:
#     # print('uni'+i['name'][3:-1].zfill(4))0
#     font_cmap = font['glyf'].glyphs['uni'+i['name'][3:-1]].flags
#     # print(font_cmap)
#     font_cmap_hex = md5(font_cmap).hexdigest()
#     print(i['name'],font_cmap_hex)

uni_list = font.getGlyphOrder()
uni_list.remove('.notdef')
for i in uni_list:
    font_cmap = font['glyf'].glyphs[i].flags
    font_cmap_hex = md5(font_cmap).hexdigest()
    for j in base_font['font']:
        if font_cmap_hex==j['hex']:
            ret_str = ret_str.replace(i.replace('uni','&#x'),j['value'])
print(ret_str)
k = json.loads(ret_str)['data']
print(k)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
对于您提到的错误TypeError: list indices must be integers or slices, not str,这是因为您在访问列表中的元素时使用了字符串作为索引,而列表的索引必须是整数或切片类型。解决这个错误的方法是使用整数或切片来访问列表中的元素。 关于您提到的猿人js逆向的问,我需要更多的信息才能为您提供具体的答案。对于爬虫编写,您可以使用Python的各种库(如Requests、BeautifulSoup、Scrapy等)来获取网页的内容,并进一步解析和处理。您可以使用这些库发送HTTP请求获取网页内容,然后使用解析库来提取您需要的数据。 爬虫编写的一般步骤如下: 1. 导入所需的库 2. 发送HTTP请求获取网页内容 3. 使用解析库解析网页内容 4. 提取所需的数据 5. 进行数据的进一步处理和存储 您可以根据具体的需求和网站的结构进行相应的编写和调试。如果您需要更具体的帮助,请提供更多的信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Python:TypeError: list indices must be integers or slices, not str报错解决及原理](https://blog.csdn.net/hhd1988/article/details/128031602)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Python BeautifulSoup [解决方法] TypeError: list indices must be integers or slices, not str](https://download.csdn.net/download/weixin_38590567/14871394)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱笑的光头强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值