爬虫对某个网站的电话解析总结

最新推荐文章于 2021-12-06 21:41:00 发布

duxingzhe103

最新推荐文章于 2021-12-06 21:41:00 发布

阅读量459

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/myfather103/article/details/119542925

版权

博主在编写爬虫时遇到一个使用动态加载和加密字体解析电话号码的复杂网站。通过分析发现，网站使用了凯撒密码进行加密。尽管遇到将字节串转换为可操作的字典的困难，但最终通过创建bytearray并模拟加法运算成功解码。博客详细记录了解密过程，并庆幸对方未采用更复杂的编码方式。

摘要由CSDN通过智能技术生成

最近在写爬虫，大部分网站还算友好。

但是今天碰到一个特别厉害的网站。动态加载Javascript页面也就算了，还有动态生成字体解析电话号码的。

也算是自己对加密解密等过程的一个总结吧，记录一下，以后方便参考。

首先我得到了传输后的编码，类似于

\xf2\x88\x81\x90

这对应数字1，其他的数字都是通过偏移得到的，也就是说，对方的网站加密只用了最简单的凯撒对应法则，这就简单了，只要我能动态生成解析电话号码的密码表就行。但问题就在这儿。我无法直接操作。

在一开始，我以为他是静态的字体，所以我通过查看源代码把字体下载下来，进行解析，然后就是报错。

接着我又尝试去操作这个变量，但一直失败。转成int都不行。它提示这个变量不能转换成int。我立刻抓瞎，那我又怎么生成字典呢？

后来我注意到变量前有一个b，我去搜了才知道，这个在Python里面叫做字节，我是不能直接操作修改的。

所以第一步，我改成了bytearray。

然后模拟加法运算对这个bytearray进行增减，注意进位和借位。

def change_byte_code_by_subset(base_code, subset):

    base_code_array = bytearray(base_code)
    base_code_array[3] += subset

    if subset > 0:

        if base_code[3] > 255:
            base_code_array[3] = base_code[3] - 16
            base_code_array[2] = base_code[2] + 1

        if base_code[2] > 255:
            base_code_array[2] = base_code[3] - 16
            base_code_array[1] = base_code[2] + 1

        if base_code[1] > 255:
            base_code_array[1] = base_code[3] - 16
            base_code_array[0] = base_code[2] + 1
    else:

        if base_code[3] < 0:
            base_code_array[3] = base_code[3] + 256
            base_code_array[2] = base_code[2] -1

        if base_code[2] < 0:
            base_code_array[2] = base_code[2] + 256
            base_code_array[1] = base_code[1] - 1

        if base_code[1] < 0:
            base_code_array[1] = base_code[1] + 256
            base_code_array[0] = base_code[0] - 1

    new_byte_code = bytes([base_code_array[0], base_code_array[1], base_code_array[2], base_code_array[3]])
    return new_byte_code

只要思路对，说难也不难，唯一感到庆幸的是，对方并未没有使用更为复杂的数字编码映射方法，所以只要思路正确还是能解开的。

duxingzhe103

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫对某个网站的电话解析总结

最近在写爬虫，大部分网站还算友好。但是今天碰到一个特别厉害的网站。动态加载Javascript页面也就算了，还有动态生成字体解析电话号码的。也算是自己对加密解密等过程的一个总结吧，记录一下，以后方便参考。首先我得到了传输后的编码，类似于\xf2\x88\x81\x90这对应数字1，其他的数字都是通过偏移得到的，也就是说，对方的网站加密只用了最简单的凯撒对应法则，这就简单了，只要我能动态生成解析电话号码的密码表就行。但问题就在这儿。我无法直接操作。在一开始，我以为他是静态的字体，所以我通过查看源
复制链接

扫一扫