最近在写爬虫,大部分网站还算友好。
但是今天碰到一个特别厉害的网站。动态加载Javascript页面也就算了,还有动态生成字体解析电话号码的。
也算是自己对加密解密等过程的一个总结吧,记录一下,以后方便参考。
首先我得到了传输后的编码,类似于
\xf2\x88\x81\x90
这对应数字1,其他的数字都是通过偏移得到的,也就是说,对方的网站加密只用了最简单的凯撒对应法则,这就简单了,只要我能动态生成解析电话号码的密码表就行。但问题就在这儿。我无法直接操作。
在一开始,我以为他是静态的字体,所以我通过查看源代码把字体下载下来,进行解析,然后就是报错。
接着我又尝试去操作这个变量,但一直失败。转成int都不行。它提示这个变量不能转换成int。我立刻抓瞎,那我又怎么生成字典呢?
后来我注意到变量前有一个b,我去搜了才知道,这个在Python里面叫做字节,我是不能直接操作修改的。
所以第一步,我改成了bytearray。
然后模拟加法运算对这个bytearray进行增减,注意进位和借位。
def change_byte_code_by_subset(base_code, subset):
base_code_array = bytearray(base_code)
base_code_array[3] += subset
if subset > 0:
if base_code[3] > 255:
base_code_array[3] = base_code[3] - 16
base_code_array[2] = base_code[2] + 1
if base_code[2] > 255:
base_code_array[2] = base_code[3] - 16
base_code_array[1] = base_code[2] + 1
if base_code[1] > 255:
base_code_array[1] = base_code[3] - 16
base_code_array[0] = base_code[2] + 1
else:
if base_code[3] < 0:
base_code_array[3] = base_code[3] + 256
base_code_array[2] = base_code[2] -1
if base_code[2] < 0:
base_code_array[2] = base_code[2] + 256
base_code_array[1] = base_code[1] - 1
if base_code[1] < 0:
base_code_array[1] = base_code[1] + 256
base_code_array[0] = base_code[0] - 1
new_byte_code = bytes([base_code_array[0], base_code_array[1], base_code_array[2], base_code_array[3]])
return new_byte_code
只要思路对,说难也不难,唯一感到庆幸的是,对方并未没有使用更为复杂的数字编码映射方法,所以只要思路正确还是能解开的。