因为最近遇到了个md5的魔改算法,想要复原最好的办法就是了解md5源码,观察做了哪些地方的魔改,然后在源码的基础上去改,就可以很快的复原。所以来记录一下标准的md5,以及用py复原时所遇到的坑。
从总体上看,md5主要有init、update、final组成。
init是初始化的值,后面的运算都是以这里初始化的四个值为起点开始运算的。
update是将传入的字符串做分块处理,每一块有64字节,然后循环将每一块传入transform中做运算。如果传入的字符串或分块后的最后一块不满64字节,那么这一块将会由指针传入后面的final做处理。
transform是md5的主要运算逻辑,传入的64字节对应着64次运算,每一次运算修改一次init时的四个值中的一个(传入的字符串是用来改变init的)。简单概括一下运算逻辑,这里的64次运算都由init的四个值、传入的字符串中的一个字节(或填充的值)、一个常量、一个左移运算位数组成。先把init中的三个值经过一些运算,将结果与除左移运算位数之外的值相加,结果进行左移rotate_left运算,再将结果与init中的一个值相加。最后经过了64次运算得到新的四个init的值再与本次transform运算前的init对应相加。
transform函数太长了,就不全截图了。
最后一步final,是用来填充之前update时不满足64位的。填充时,填充的第一个是0x80后面都是0。填充到满64字节,然后带入到transform进行最后一次运算。输出的结果就是运算后的init的四个值的组合。
md5算法基本就这些内容了,接下来是py复原时的坑。
因为py语言特性的关系,需要在一些地方加上0xFFFFFFFF,不然结果就是不对。需要添加的地方主要就是,transform中的64步运算的每一步运算后,还有rotate_left运算时。
还有一点,因为py没有指针的操作,在对照C++做py复原时,需要自行编写变量修改逻辑。
MD5的C++转py的内容就结束了。
本文的C++代码主要参考,麻省理工学院计算机科学与人工智能实验室网站中的内容,地址:https://people.csail.mit.edu/rivest/Md5.c
关于py和C++的源码我已经整理好了,可以在公众号内回复 md5 获取。
最后欢迎各位老司机进群交流:546452230