PDF 文字提取软件

最新推荐文章于 2024-07-30 14:56:57 发布

gloyish

最新推荐文章于 2024-07-30 14:56:57 发布

阅读量1.6k

点赞数 1

文章标签：文档 adobe archive 平台图形语言

本文链接：https://blog.csdn.net/gloyish/article/details/5989722

版权

PDF 简介
PDF是P ortable D ocument F ormat 的缩写，由 Adobe技术软件公司于1993年开发出的一种先进阅读文档格式，该格式的文档不依赖宿主系统环境自成体系，从文字的编码到显示都有相对完善的规范定义，文字编码能很好的与现有存在的各种文字编码体系保持兼容。由于其先进的字符显示定义和各种系统平台下良好的实现，使得这一格式得到了广泛的应用，并成为许多行业的标准文档格式。如今PDF阅读文档格式已被国家标准化组织ISO批准为国际标准，2009年9月，作为电子文档长期保存格式的PDF/A(archive)经由中国国家标准化委员会批准为中国国家标准。其他相关细节请参考维基百科

PDF 应用
PDF文档的文字提取和按语义序列化，是PDF格式文件应用的基础， PDF文档格式本身不对显示的文字按阅读序列存储，而是通过阅读器将文档中的文字按指定的位置进行显示，因此我们看到的连续的有意义的文字，在PDF文件中是无序的，是通过一连串的坐标变换和图形操作完成的。这样保证了PDF文档的矢量特性，能够在任何不同的显示设备和打印设备输出保持一致，但对于文档中文字的检索，查找带来一定的困难。
本软件基于Adobe公司公开的PDFSpec13 规范，和其他相关技术文档，将PDF显示文字按阅读顺序序列化，并进行Unicode编码输出成普通无格式文件。解决了PDF文档这方面的缺陷，方便的了PDF文字的检索和查找，对于规模化和自动化应用PDF格式文档有一定的帮助。

软件特点