爬虫 某全国律师执业诚信信息公示平台 DES加密+中文字体反爬

本文揭秘如何解析律师执业诚信信息公示平台的DES加密跳转链接,并解决中文字体反爬问题,涉及JS逆向、字体识别与动态字典扩展策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

某全国律师执业诚信信息公示平台 DES加密+中文字体反爬

目标网站:aHR0cHM6Ly9jcmVkaXQuYWNsYS5vcmcuY24v

该网站有跳转链接DES加密,中文字体反爬,滑块验证,点选验证,重点研究一下详情页跳转链接的DES加密和中文字体反爬,滑块和点选就不赘述了,网上一搜一大把。

无限debugger

打开首页,输入关键词搜索,打开F12,来到反调试无限debugger,无限debugger怎么过也不赘述了,我选择重写JS文件。
在这里插入图片描述

DES加密

这里的跳转链接被加密了,这里绑定了一个事件onclick,点击右侧Event Listeners,点击click,再点击js进去查看里面的js代码
在这里插入图片描述
跳到一个方法里面,我们打个断点,点击跳转链接调试一下,查看参数k,很显然这不是我们要的东西,我们往上调试
在这里插入图片描述
跳到了这里,我们看到decryptByDES方法和CryptoJS,randomKey等关键词,很显然这是一个DES加密
在这里插入图片描述
把js代码抠出来,导入crypto-js这个包,这里的randomKey是动态的,在网页源码上
在这里插入图片描述
到这里也就解决了跳转链接被加密的问题了
在这里插入图片描述

中文字体反爬

来到字体反爬,一般字体反爬是0-9的字体反爬,比如58同城,大众点评等。这个站是中文字体反爬,也不确定有几套字体,是不是每天都变(已知DES加密的跳转链接每天一变),中文那么多,一个一个做成字典方法也不现实。
在这里插入图片描述
怎么拿字体文件url和写到本地也不赘述了
在这里插入图片描述

我的方案是用TTFont这个库读入字体文件,把未知字体写成图片然后利用第三方或者现成的库识别文字,再读data信息,用md5加密字体的data信息,把识别结果和md5做成字典写到本地文件或者通过api接口上传到线上(由于我做的是分布式爬虫,我用django做了个接口把文件upload到线上),每次运行脚本读取一次文件,遇到没有记录的字体添加到线上字典,这样我们的字典库就会不断壮大,也慢慢的不会再依赖文字识别,采集速度也会越来越快。
在这里插入图片描述
最后把把字典替换到网页源码就打完收工,开开心心当我的xpathBoy了
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值