PDF文件格式研究

随着电子 出版物的日益丰富和因特网的快速普及,人们可以很方便地获得大量的、各学科的电子 资料。在这些资料中,特别是各政府机关、学术机构、标准组织和各大公司在网上发行的各种资料与产品手册,有愈来愈多的在使用ADOBE公司开发并大力推广的PDF格式。
  一、文件格式
  目前主流的电子 图书格式还没有统一的电子 图书文件格式,不同的公司因版权或商业因素等诸多原因,往往各行其事,采用不同的文件格式,其中最常用的有以下几种:
  PDF格式:PDF格式是ADOBE公司推出的电子 图书专用格式,它无论在何种机器、何种操作系统 上都能以制作者所希望的形式显示或打印出来,表现出跨平台的一致性,效果非常理想。它是目前比较先进的一种电子 图书格式,应用非常广泛。
  WDL格式:WDL格式采用图文混排方式,一个文件就是一本电子 图书,阅读、携带都很方便,更重要的是WDL格式对中文的支持非常好,其应用范围也非常广泛。
  HTML(超文本格式):HTML的特点就是显示效果好、表现力强、文件比较紧凑,不会占用太多磁盘空间。另外,HTML的兼容性非常好,我们只要是安装了Windows9X/2000即可阅读HTML文档。
  图像格式:用户必须借助于图形浏览软件 或专门的图形方式阅读软件 才能进行阅读。它有一个明显的缺点,就是文件体积比较大,这导致下载、阅读速度都很慢,显示效果也不太理想。
  可执行文件格式:部分电子 图书采用了可执行文件格式,我们必须执行它们附带的应用程序才能进行阅读。此种格式的文件占用的磁盘空间非常巨大,往往不适合在Internet上传输,而只能采用光盘形式。
  文本文 件格式 :除了上面介绍的几种文件格式外,还有部分电子 图书采用了最原始的文本文 件格式,它的显示效果虽然最差,但文件的“块头”无疑最小,在网络速度不是太快的今天,可以为读者节省更多的时间。
  二、PDF文件格式
  PDF从页面描述语言PS(Post Script)发展而来,具有与PS几乎相同的页面描述能力 和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子 出版。
  (一)PDF的结构
  1.PDF文件结构。PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(Direct Object)和间接对象(Indirect Object)。一个典型的PDF文件包含4个部分,分别是文件头、文件体、交叉引用表、文件尾。
   2.   PDF文档结构。PDF的文档结构是一种树型结构(如图1所示)。树的根节点就是PDF文件的根对象。根节点下有四个子树:页面树 (PagesTree)、书签树(OutlineTree)、线索树(Article Thread)、名字树(Named Destination)。书签建立了书签名与一个具体页面上的位置的关联,它使得用户可以按书签名字来访问文档的内容。

 
 
 
 
 
图1 PDF文档结构
  (二)PDF的特点
  1. PDF的 技术 特点。PDF文件由文件底层数据层、文本图像数据层、附属 信息 数据层等构成。底层数据层包括字体 信息 、交叉参考表(简称xref)等所有的控制 信息 。文本图像数据层包括文件中的所有文本代码、矢量图形和位图数据。附属 信息 数据层包括文件书签和文件或页面链接等所有的功能扩展数据。
  2. PDF的应用特点。多平台特性、超媒体特性、 多媒体 表达手段文件小,阅读方便,打印效果好。
   3. PDF文件的生成。目前PDF的生成有两种途径:(1)通过打印的方式生成PDF,就是通过一个虚拟的PDF打印机将应用程序的文字和图形指令转换为 PDF指令并保存在PDF文件中。(2)由PS转换到PDF是另一种生成PDF的方法,它是由应用程序先将待打印的内容发排到PS文件,再由Adobe Acrobat Distiller将PS文件转换成PDF文件。
  三、 系统 基本功能需求
  PDF阅读器 系统 应当能够准确的阅读PDF格式文件。同时 系统 能对PDF格式文件进行 管理系统 能够提供阅读、翻页、选择文本、选择图片、放大缩小、复制、粘贴、书签、注释等一些基本的功能。
  (一)用户界面需求
  PDF阅读器 系统 的界面应当具有WINDOWS风格,界面简单大方,操作简便快捷,稳定性好,并能为用户的操作提供方便。
  (二) 系统 性能需求
  由于PDF阅读器 系统 ,是供用户来阅读PDF文件的。因此, 系统 应该具有很好的灵活性,使用户能够很方便的对打开的PDF文件进行操作。
  (三) 系统 的可扩展性
   系统 应该留出足够的空间方便以后添加控制项,对文件进行控制、处理、存储等操作。也就是说,在不影响用户使用该 系统 的情况下,能够方便的添加一些新的功能。将来的 系统 应该更为成熟,功能更加完善。该 系统 应该具有友好的用户界面,能够提供较多的 管理 显示功能。
  (四) 系统 的安全性
  PDF文档可以从未授权入口通过加密来保护它们的内容,也就是说PDF文件可以长期保存文件而防止文件数据的丢失。
  (五)PDF生成器
  PDF阅读器能够正确的阅读PDF格式的文本、图片等,并且能够对PDF文件进行 管理 。此PDF生成器分别实现文 本文 件即TXT文件转换为PDF文件和图片文件如JPG,GIF,TIFF等转换为PDF文件。在转换之前,可以根据需要对文 本文 件和图片文件进行设置。设置功能包括内容设置和页面设置。其中内容设置有顶部、底部、左侧、右侧的设置,页面设置有页面大小、打开方式、打开模式、全屏效果和是否打开Adobe Acrobat等的设置。
  四、结语
  PDF文件是目前比较先进的一种 电子 图 书格式,应用非常广泛。由于用Adobe免费的PDF阅读器(AcrobatReader)阅读中文PDF时只能显示TureType中文字体,且无法实 现平台独立和字体独立;又不支持中文字体的下载这两个问题。其解决的最好办法就是开发中文PDF阅读器。实现PDF检索 系统 ,从PDF中提取 信息 ,在其他应用程序中支持PDF的输入和阅读。

参考文献
  [1]官章全,韩云君,李罡. Visual C++6.0高级编程范例[M]. 北京:电子 工业出版社,2001.
  [2]侯俊杰.深入浅出MFC [M].武汉:华中科技大学出版社,2000.
  [3]扬伟.常用电子 图书格式和阅读工具的分析研究[J].电子 科技大学图书馆,2001.
  [4]邓华,毛岩,吉正. Visual C++案例教程[M].北京:中科多媒体 电子 出版社,2001.
  [5]张海潘.软件 工程导论(第三版)[M].北京:清华大学出版社,2001.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值