office和wps采用的都是复合文档格式,至于什么是复合文档可以参考:http://club.excelhome.net/thread-227502-1-1.html。
虽然两者都是复合文档格式,而且流名称相同,但是流的位置稍有偏差(位置计算方式相同)。具体的文档结构可以通过工具查看。工具地址:https://download.csdn.net/download/qq_39268442/11839084
本文只大致讲解一下加密位的判断,不上代码,做好准备工作以下就开讲啦。
一.对于doc文件加密判断:
加密判断方式:\Root Entry\WordDocument流下的fEncrypted和fObfuscated的值,这两个字符各占一位,如果fEncrypted 和fObfuscation均为1,对文件进行模糊处理。如果fEncrypted为1且fObfuscation 为0,则文件加密。
知道了加密判断位,那么判断位的偏移量怎么计算呢?首先要找到WordDocument流的位置,然后获取流data便宜量,最后按字节加就可以了。data偏移量的公式如下:iSectorSize >= 4096 ? 512 + iSector * 512 : 2048 + iSector * 64(其中iSectorSize 为WordDocument流data所在扇区,iSector 为扇区号),公式算法就不讲了,可以看复合文档。
下图为WordDocument流信息startSect是扇区编号,Sizelow是扇区大小。
对于office的doc一般偏移位置是固定的,为512+10,但是对于wps下的doc文件fEncrypted偏移量却不是固定的,因为它的流信息一般在末尾。所以该位置需要计算,不能写死。fEncrypted和fObfuscated位于同一个字节,可以通过&运算判断0x1,0x80.以下是官方文档,对格式的说明。
F-fEncrypted(1位):指定是按照加密和模糊处理中的指定对文档进行加密还是模糊处理。
ģ - fWhichTblStm(1个比特):指定