PDF 文字提取软件

PDF 简 介
     PDF是P ortable D ocument F ormat 的缩写,由 Adobe技术软件公司于1993年开发出的一种先进阅读文档格式, 该格式的文档不依赖宿主系统环境自成体系,从文字的编码到显示都有相对完善的规范定义, 文字编码能很好的与现有存在的各种文字编码体系保持兼容。 由于其先进的字符显示定义和各种系统平台下良好的实现, 使得这一格式得到了广泛的应用,并成为许多行业的标准文档格式。 如今PDF阅读文档格式已被国家标准化组织ISO批准为国际标准,2009年9月, 作为电子文档长期保存格式的PDF/A(archive)经由中国国家标准化委员会批准为中国国家标准。 其他相关细节请参考维基百科

PDF 应 用
     PDF文档的文字提取和按语义序列化,是PDF格式文件应用的基础, PDF文档格式本身不对显示的文字按阅读序列存储, 而是通过阅读器将文档中的文字按指定的位置进行显示, 因此我们看到的连续的有意义的文字,在PDF文件中是无序的, 是通过一连串的坐标变换和图形操作完成的。 这样保证了PDF文档的矢量特性,能够在任何不同的显示设备和打印设备输出保持一致, 但对于文档中文字的检索,查找带来一定的困难。
     本软件基于Adobe公司公开的PDFSpec13 规范,和其他相关技术文档, 将PDF显示文字按阅读顺序序列化,并进行Unicode编码输出成普通无格式文件。 解决了PDF文档这方面的缺陷,方便的了PDF文字的检索和查找, 对于规模化和自动化应用PDF格式文档有一定的帮助。

 

软 件 特 点

 

  • 直接解析PDF文档,将显示文字按阅读顺序序列化,不依赖第三方支持库。
  • 绿色软件,无需安装,命令行界面,双击启动后,直接将文件拖入窗口回车。
  • 支持英文,欧洲等国家的文字编码。
  • 支持简体中文,繁体中文,日文,韩文等亚洲国家的文字编码。
  • 采用C++语言编码实现,具备高速稳定,平台适应性强。
  • 拥有全部知识产权,没有应用上的版权纠纷。
  • 软件下载
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值