PDF文件结构(一)

本文介绍了PDF文件的物理结构,包括文件头、对象集合、交叉引用表和trailer。PDF文件头表示PDF规范版本,对象集合包含所有PDF对象,交叉引用表方便随机访问对象,trailer提供全局信息和对象定位。PDF对象包括8种类型:boolean、numeric、string、name、array、dictionary、stream和NULL。
摘要由CSDN通过智能技术生成

PDF文件结构(一)

                                     ————物理结构

                             作者:bobob

                             邮件:zxbbobob@hotmail.com


   
PDF(Portable   Document   Format,便携式文档结构)是一种很有用的文件格式,其最大的特点是平台无关而且功能强大(支持文字/图象/表单/链接/音乐/视频等).PDF的解析,首先要熟悉PDF文件的物理结构和逻辑结构。PDF文件物理结构可分为以下几块:  
1.
文件头
 
   
文件头是PDF文件的第一行,格式如下:      
   

%PDF-1.4
   

这是个固定格式,表示这个PDF文件遵循的PDF规范版本,目前PDF的生成工具,除了官方的acrobat,其他生成的以1.4版本的居多。对于做PDF开发来说,一个最简单的原则就是生成PDF的时候尽量符合低版本规范,以保证大多数解析器能支持;解析PDF的时候尽量支持高版本的规范,以保证支持大多数工具生成的PDF文件。

1.4版本以后,PDF文件的版本并不唯一的只是在这里表示了,可能后面会改写(catalogVersion词条),所以解析PDF的时候,如果这里的版本大于等于1.4,应该再比较一下catalog里面的version,取其中高一点的版本。


2.
对象集合
   
这是一个PDF文件最重要的部分,文件中用到的所有对象,包括文本/图象/音乐/视频/字体/超连接/加密信息/文档结构信息等等,都在这里定义。格式如下:  

2 0 obj  
        ...  
    end obj  

一个对象的定义包含4个部分:

前面的2是对象序号,其用来唯一标记一个对象;0是生成号,按照PDF规范,如果一个PDF文件被修改,那这个数字是累加的,它和对象序号一起标记是原始对象还是修改后的对象,但是实际开发中,很少有用这种方式修改PDF的,都是重新编排对象号;objendobj是对象的定义范围,可以抽象的理解为这就是一个左括号和右括号;省略号部分是PDF规定的任意合法对象(一共8种,见后面附A)

可以通过R关键字来引用任何一个对象,比如要引用上面的对象,可以使用2 0 R,需要主意的是,R关键字不仅可以引用一个已经定义的对象,还可以引用一个并不存在的对象,而且效果就和引用了一个空对象一样。
   
3.
交叉引用表  
   
交叉引用表是PDf文件内部一种特殊的文件组织方式,可以很方便的根据对象号随机访问一个对象。其格式如下
:  
   
  xref  
  0 1  
  0000000000   65535   f  
  4 1

0000000009   00000   n  
  8 3

0000000074   00000   n  
  0000000120   00000   n  
  0000000179   00000   n  
   
 
其中,xref是开始标志,表示以下为一个交叉引用表的内容;每个交叉引用表又可以分为若干个子段,每个子段的第一行是两个数字,第一个是对象起始号,后面是连续的对象个数,接着每行是这个子段的每个对象的具体信息——每行的前10个数字代表这个这个对象相对文件头的偏移地址,后面的5位数字是生成号(用于标记PDF的更新信息,和对象的生成号作用类似),最后一位fn表示对象是否被使用(n表示使用,f表示被删除或没有用)。上面这个交叉引用表一共有3个子段,分别有1个,1个,3个对象,第一个子段的对象不可用,其余子段对象可用。

   
4.trailer:  
   
通过trailer可以快速的找到交叉引用表的位置,进而可以精确定位每一个对象;还可以通过它本身的字典还可以获取文件的一些全局信息(作者,关键字,标题等),加密信息,等等。具体形式如下:  
  trailer  
  <<  
    key1   value1
    key2   value2
    key3   value3


  >>  
  startxref  
  553  
  %%EOF  
   
 trailer
后面紧跟一个字典,包含若干键-值对。具体含义如下:

值类型

值说明

Size

整形数字

所有间接对象的个数。一个PDF文件,如果被更新过,则会有多个对象集合、交叉引用表、trailer,最后一个trailer的这个字段记录了之前所有对象的个数。这个值必须是直接对象。

Prev

  • 3
    点赞
  • 92
    收藏
    觉得还不错? 一键收藏
  • 14
    评论
查看 PDF 文件结构的工具有很多,常见的有 Adobe Acrobat、PDF-XChange Viewer、Reveal PDF Structure、PDFtk 等。 其中,Adobe Acrobat 是最常用的 PDF 查看和编辑工具之一。它提供了强大的功能,包括查看 PDF 文件结构。在 Adobe Acrobat 中,你可以选择“文件”菜单中的“属性”选项,然后在“属性”对话框的“描述”标签下找到“文件大小”和“创建者”等信息,这些信息揭示了 PDF 文件结构PDF-XChange Viewer 是另一个流行的可供选择的工具。在 PDF-XChange Viewer 中,你可以从“文件”菜单中选择“文件属性”选项,然后在打开的对话框中找到文件结构信息。 Reveal PDF Structure 是一个特定的工具,它专门用于显示和分析 PDF 文件结构。它提供了一个直观的界面,使用户能够深入了解 PDF 文档的内部结构,包括目录、页和对象。 PDFtk(PDF Toolkit)是一个命令行工具,可以用于处理 PDF 文件。使用 PDFtk,你可以在命令提示符下运行命令来查看 PDF 文件结构。例如,通过运行“pdftk input.pdf dump_data”命令,你可以获取 PDF 文件结构信息。 总的来说,有许多可用的工具可以帮助我们查看 PDF 文件结构。这些工具提供了不同的功能,使我们能够深入了解 PDF 文件的组成部分及其内部结构。根据不同的需求,我们可以选择适合自己的工具来查看和分析 PDF 文件结构
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值