说明:
要解析一个PDF文件,首先要掌握PDF的物理结构,这是第一步。但是这个仅仅只是基础,更重要的是对PDF逻辑结构的解析。PDF的逻辑大体上是一个树状结构,根节点是catalog字典,通过这里去解析页、目录、链接信息等等。
PDF reference 1.7.pdf 中3.6节。
目标:
掌握PDF树型结构,掌握从Root到Page Content解析流程。
Catalog根节点
Catalog是整个PDF逻辑结构的根节点,是通过trailer的Root字段定位,相当重要,因为这里是PDF文件物理结构和逻辑结构的连接点。Catalog字典包含的信息非常多,这里仅列了Pages做个说明。
完整的可查看 PDF reference1.7.pdf Page 137。