爬虫对某个网站的电话解析总结

最近在写爬虫,大部分网站还算友好。

但是今天碰到一个特别厉害的网站。动态加载Javascript页面也就算了,还有动态生成字体解析电话号码的。

也算是自己对加密解密等过程的一个总结吧,记录一下,以后方便参考。

首先我得到了传输后的编码,类似于

\xf2\x88\x81\x90

这对应数字1,其他的数字都是通过偏移得到的,也就是说,对方的网站加密只用了最简单的凯撒对应法则,这就简单了,只要我能动态生成解析电话号码的密码表就行。但问题就在这儿。我无法直接操作。

在一开始,我以为他是静态的字体,所以我通过查看源代码把字体下载下来,进行解析,然后就是报错。

接着我又尝试去操作这个变量,但一直失败。转成int都不行。它提示这个变量不能转换成int。我立刻抓瞎,那我又怎么生成字典呢?

后来我注意到变量前有一个b,我去搜了才知道,这个在Python里面叫做字节,我是不能直接操作修改的。

所以第一步,我改成了bytearray。

然后模拟加法运算对这个bytearray进行增减,注意进位和借位。

def change_byte_code_by_subset(base_code, subset):

    base_code_array = bytearray(base_code)
    base_code_array[3] += subset

    if subset > 0:

        if base_code[3] > 255:
            base_code_array[3] = base_code[3] - 16
            base_code_array[2] = base_code[2] + 1

        if base_code[2] > 255:
            base_code_array[2] = base_code[3] - 16
            base_code_array[1] = base_code[2] + 1

        if base_code[1] > 255:
            base_code_array[1] = base_code[3] - 16
            base_code_array[0] = base_code[2] + 1
    else:

        if base_code[3] < 0:
            base_code_array[3] = base_code[3] + 256
            base_code_array[2] = base_code[2] -1

        if base_code[2] < 0:
            base_code_array[2] = base_code[2] + 256
            base_code_array[1] = base_code[1] - 1

        if base_code[1] < 0:
            base_code_array[1] = base_code[1] + 256
            base_code_array[0] = base_code[0] - 1

    new_byte_code = bytes([base_code_array[0], base_code_array[1], base_code_array[2], base_code_array[3]])
    return new_byte_code

只要思路对,说难也不难,唯一感到庆幸的是,对方并未没有使用更为复杂的数字编码映射方法,所以只要思路正确还是能解开的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值