从头学习爬虫(四十五)高阶篇----字体加密

本文主要帮助解决字体加密的反爬虫策略

一 需求

https://www.china.cn/buy/4432149572.html

二 分析请求

页面展示

 

显然是字体进行了加密,然后打开字体和其他看看有没有加载字体的资源文件,发现没有。

看响应内容

可以发现一个base64的字体文件。

三 实操

首先把base64转成文件

 //BASE64解码成File文件
    public static void base64ToFile(String destPath,String base64, String fileName) {
        File file = null;
        //创建文件目录
        String filePath=destPath;
        File  dir=new File(filePath);
        if (!dir.exists() && !dir.isDirectory()) {
            dir.mkdirs();
        }
        BufferedOutputStream bos = null;
        java.io.FileOutputStream fos = null;
        try {
            byte[] bytes = Base64.getDecoder().decode(base64);
            file=new File(filePath+"/"+fileName);
            fos = new java.io.FileOutputStream(file);
            bos = new BufferedOutputStream(fos);
            bos.write(bytes);
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (bos != null) {
                try {
                    bos.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
            if (fos != null) {
                try {
                    fos.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }

转成一个ttf字体文件

然后安装一个软件

打开可以看到

 转义一下

<h2><span class=" secret">&#x100a7;&#x100a8;&#x100a5;&#x100a6;</span></h2>
<h2><span class=" secret">采购腰包</span></h2>

 

四 总结

整个流程大致分析了字体加密的解析方法。字体文件格式有多种可能需要转换格式,还有每个页面都有不一定字体文件,不能统一替换,需要对字体文件进行代码解析然后替换。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值