python爬虫反爬策略_抖音字体反爬，爬虫字体反爬策略——每周一个爬虫小教程系列...

最新推荐文章于 2023-11-29 01:35:07 发布

weixin_39530269

最新推荐文章于 2023-11-29 01:35:07 发布

阅读量232

点赞数

文章标签： python爬虫反爬策略

在B站上看到一个关于抖音字体反爬的视频，看完之后，精神抖擞，不禁感觉，我又行了，于是在模拟器上下载了一个抖音，打开了我尘封已久的抖音号。

可以看见显示的数字是正常的，但是查看源码就是错误的。

既然是字体反爬，那就得去找下字体，双击下载

然后用在线字体编辑器打开看一下。

我们看到这个数字1的Unicode是$E602，是不是和源代码中的差不多呢。

在教程里面说到对于字体反爬，需要用模块将字体转为xml，相当于字典，然后就这样替换吧。

将字体文件转换为xml文件需要用到的模块是fonttoole，这里需要自行安装一下。

from fontTools.ttLib import TTFont

font = TTFont('iconfont_9eb9a50.woff')

font.saveXML('DouYinFont.xml')

转换完成之后的XML文件。

我们来搜索一下我们之前的数字1，他的Unicode就是E602，然后可以发现这里和之前在线字体网站上的结果是一样的

然后我们来将XML文件提取出来，并输出一下(XML提取我目前也不会，所以是跟着教程写的，后期再去了解一下吧)a = font['cmap'].getBestCmap()

print(a)

这个时候发现似乎这些都变成了数字，而不是之前的$E602这样子的，是因为进制转换了，由原始的16进制，转成了10进制。

然后我们需要将这个字典中的十进制数字转成这种16进制，然后还得把0x替换为

然后用代码实现就是酱紫的，大概就是提取出cmap这个节点的信息，然后遍历这个字典，然后重新转换成16进制然后变成字符串，在替换一下。a = font['cmap'].getBestCmap()

b = {}

for key, value in a.items():

b[str(hex(key)).replace('0x', '')] = value

print(b)

然后就是用代码将num_这些转换为数字，参照这张字体在线编辑器的即可

c = {

'num_': '1',

'num_1': '0',

'num_2': '3',

'num_3': '2',

'num_4': '4',

'num_5': '5',

'num_6': '6',

'num_7': '9',

'num_8': '7',

'num_9': '8',

}

然后改进一下之前的代码：for key, value in a.items():

b[str(hex(key)).replace('0x', '')] = c[value]

print(b)

然后为了和网页源码里面一样()所以还需要做一些修改，在后面加一个分号和空格。for key, value in a.items():

b[str(hex(key)).replace('0x', '')+'; '] = c[value]

print(b)

然后就是请求源码，然后替换了。headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ApplewebKit/537.36 (KHtml, like Gecko) Chrome/83.0.4103.97 Safari/537.36',

}

url = 'https://www.iesdouyin.com/share/user/91723415754'

res = requests.get(url=url, headers=headers).text

for key, value in b.items():

if key in res:

res = res.replace(key, value+' ')

print(res)

weixin_39530269

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。