PDF文件解析与PDF恶代分析中的一些坑-CSDN博客

本文详细介绍了PDF文件格式，包括其文件结构、逻辑结构、关键字段及文件结构，以及在恶意代码分析中可能遇到的问题。讨论了PDF的二进制文本解析、混淆处理、关键字识别、流对象的提取，还提到了恶意样本的规避技术，如错误的交叉引用表、多引用表、字符串长度问题和解码问题。文章最后推荐了一些PDF分析工具。

摘要由CSDN通过智能技术生成

一、简介

最近在做文档类的恶代检测，写个总结。

本篇文章负责介绍pdf文档的格式以及恶代分析中需要注意的问题以及相应工具推荐。希望能给各位做恶代分析时提供一些帮助。

后序会更新一些其他文档格式解析与恶代分析内容等，欢迎各位关注。

二、PDF文件格式介绍

PDF(便携式文件格式，Portable Document Format)是由Adobe Systems于1993年基于文件交换所发展出的一种文件格式。Adobe公司素有“漏洞之王”的美誉，所以学习PDF文件格式对研究分析漏洞具有极大帮助。PDF格式较为复杂，本文以研究漏洞的目的分析PDF格式，探寻如何找出并分析PDF中存在的恶意代码，而并非做一个详细的PDF parser解析器，因此会省略对不相关关键字的介绍，请各位留意。

PDF的结构可以从文件结构和逻辑结构两个方面来理解。PDF的文件结构指的是其文件物理组织方式，逻辑结构则指的是其内容的逻辑组织方式。

1. PDF的文件结构

PDF文件格式包含以下4个部分：

文件头——指明了该文件所遵从的PDF规范的版本号，它出现在PDF文件的第一行。
文件体——又称对象集合，PDF文件的主要部分，由一系列对象组成。
交叉引用表——对对象进行随机存取而设立的一个间接对象的地址索引表。(实际以偏移+索引的方式储存对象地址，下文会提及)
文件尾——声明了交叉引用表的地址，即指明了文件体的根对象(Catalog)，从而能够找到PDF文件中各个对象体的位置，达到随机访问。另外还保存了PDF文件的加密等安全信息。

2. PDF文件格式图示：

3. PDF文件的逻辑结构

本段主要介绍PDF文件体的读取方式。

作为一种结构化的文件格式，一个PDF文档是由一些称为“对象”的模块组成的。每个对象都有数字标号，这样的话可以这些对象就可以被其他的对象所引用。这些对象不需要按照顺序出现在PDF文档里面，出现的顺序可以是任意的，比如一个PDF文件有3页，第3页可以出现在第1页以前，对象按照顺序出现唯一的好处就是能够增加文件的可读性，对象的信息以偏移+索引的形式保存在交叉引用表内。

文件尾说明了根对象的对象号，并且说明交叉引用表的位置，通过对交叉引用表的查询可以找到目录对象(Catalog)。这个目录对象是该PDF文档的根对象，包含PDF文档的大纲(outline)和页面组对象(pages)引用。大纲对象是指PDF文件的书签树;页面组对象(pages)包含该文件的页面数，各个页面对象(page)的对象号。

4. PDF的层级结构图示：

页面(page)对象为PDF中最重要的对象，包含如何显示该页面的信息，例如使用的字体，包含的内容(文字，图片等)，页面的大小。里面的信息可以直接给出，当然里面的子项更多的是对其他对象的引用，真正的信息存放在其他对象里面。页面中包含的信息是包含在一个称为流(stream)的对象里，这个流的长度(字节数)必须直接给出或指向另外一个对象(包含一个整数值，表明这个流的长度)。

可见stream流对象我们恶代分析需要获取的重点。

5. 页面信息图示：