恶意Office文档解析——1. Office文档格式解析

本文介绍了Office文档的格式,包括复合文档的概念,数据存储结构以及Office文档的三种主要格式:ole、xml、ooxml。重点讨论了2007年后基于XML的ooxml格式,解析方法涉及Microsoft的Offvis工具,并详细解释了OPC-Open Package Convention,Part、Relationship和ContentTypes的关系。解析过程包括读取Content_Types.xml、_rels/.rels和presentation.xml等关键文件,揭示了PPTX文件解析的基本流程。
摘要由CSDN通过智能技术生成

写在前面:这是我最近在做的一个小课题,按照研究进度不定期更新。主要是学习前人的研究思路,自己开发的内容会比较少。

  1. 复合文档的概念
    复合文档不仅包含文本,而且包括图形、电子数据表格、声音、视频等其他信息。使用面向对象技术,将非标准信息(如图像、声音)作为独立的、自包含式对象包含在文档中。
    符合文档将数据分成许多流(Steams),流存储在不同的Storages里。符合文档采用NTFS(NT File System)格式。
    流又分成更小的数据扇区(sectors)。数据扇区可能包含控制数据或用户数据。整个文件由一个头结构(Header)结构以及Sectors组成,头结构确定了Sectors的大小,每个Sector的大小相同。
  2. Office文档格式
    Office文档官方说明
    Office文档主要基于三种格式:ole、xml、ooxml。ooxml以xml为基础,可以理解为zip文件。
    doc、xls、ppt三种扩展名文档属于97-2003版Office,可解析出ole格式文件。
    docm、xlsm、pptm是启用宏的Office文档,存储Visual Basic Applications(VBA)宏代码,可解析出xml文件。
    docx、xlsx、pptx三种扩展名文档可解析出xml文件。
  3. Office文档解析
    Office文档解析可用Microsoft官方解析可视化工具Offvis来进行。下载Offvis并安装。
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值