写在前面:这是我最近在做的一个小课题,按照研究进度不定期更新。主要是学习前人的研究思路,自己开发的内容会比较少。
- 复合文档的概念
复合文档不仅包含文本,而且包括图形、电子数据表格、声音、视频等其他信息。使用面向对象技术,将非标准信息(如图像、声音)作为独立的、自包含式对象包含在文档中。
符合文档将数据分成许多流(Steams),流存储在不同的Storages里。符合文档采用NTFS(NT File System)格式。
流又分成更小的数据扇区(sectors)。数据扇区可能包含控制数据或用户数据。整个文件由一个头结构(Header)结构以及Sectors组成,头结构确定了Sectors的大小,每个Sector的大小相同。 - Office文档格式
Office文档官方说明
Office文档主要基于三种格式:ole、xml、ooxml。ooxml以xml为基础,可以理解为zip文件。
doc、xls、ppt三种扩展名文档属于97-2003版Office,可解析出ole格式文件。
docm、xlsm、pptm是启用宏的Office文档,存储Visual Basic Applications(VBA)宏代码,可解析出xml文件。
docx、xlsx、pptx三种扩展名文档可解析出xml文件。 - Office文档解析
Office文档解析可用Microsoft官方解析可视化工具Offvis来进行。下载Offvis并安装。