纯文本抽出通用程序库 让您不再为文本抽出和处理发愁!

该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出,通过该程序库,用户可以轻松获得各种格式文档的文字信息,方便检索和处理。

功能:

(1)文件自动识别:可识别源生成文件和其版本,文件的识别不是根据文件的扩展名,而是根据文件内部信息进行识别。

(2)文本抽出:从指定的文件或嵌在文件中的OLE对象中抽出文本数据。

(3)属性抽出:从指定文件中,将文件属性抽出到属性结构体中。

(4)页面抽出:从指定文件中,抽出指定页中的文本数据。

(5)加密PDF文件抽出:从设定了安全包保护的PDF中抽出文本数据。

特点:方便、实用、快捷、及时、准确、完整的找到您想要的信息。

(1)模块化程序设计:采用灵活、合理的模块化程序设计与结构,可以高速化进行文本抽出,对新的文件格式迅速作出模块对应。具备多语言处理的程序模块,且各模块具有可移植性。

(2)支持多平台操作: windows版(暂无WIN7)、sun sparc版solaris2.5以上、 linux(glibc2.1以上)、IBM IX 5L version5.1、powerPC MacOS X

(3)支持多语言:中文(简/繁),英语、日语、汉语、韩语。文本抽出文体支持办公常用文体集合,生成标准html文档,适用于各种浏览器。

(4)支持多线程技术:支持server端多道并发操作,方便用户嵌入各种应用系统。

(5)支持数十种数据文件格式:ms office系列、microsoft rtf、adobo pdf及pagemaker、autocad系列、lotus1-2-3系列、wordperfect、mail系列(eml,msg)、压缩文件系列(zip,rar,lzh,tar,gzip) 、html、xml等数十种数据文件格式。

(6)提供多种形式的API函数接口:C++/C、COMM、perl的API函数接口。

应用领域:

图书馆(各大图书论坛)、Internet搜索引擎、mail检索系统等大型应用系统中。


了解更多请回复交流


转载于:https://my.oschina.net/u/1764770/blog/260806

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值