JAVA文件搜索过程中如何得到各种文件内容(office文件,PDF,邮件,mht,思维导图等)

本文介绍了在JAVA开发中,如何利用Graccvs组件替代Tika进行高效、安全的文件正文提取,包括PDF、Office文档、邮件、HTML等格式。Graccvs用Go语言编写,无外部依赖,提供多语言接口,支持多任务并发,适用于各种文件类型的文本提取。
摘要由CSDN通过智能技术生成

现在流行的搜索引擎 Lucene, Elasticsearch处理文件搜索时一般使用 tika,使用tika 处理文件正文搜索还好,但搜索结果显示正文等操作不是很方便,并且tika提取正文的速度比较慢。老版本还有很多外部依赖程序,安全性不好。

笔者给大家介绍一款调用方便,提取文件正文速度快,开发方便的组件供大家参考。

“Graccvs正文提取组件”全部用go语言实现,不依赖外部工具,效率高,安全性非常好。可以直接在操作系统上开发使用,不要求JAVA等其他环境支持,而且从设计上避免了环境依赖或者解析器框架带来的占用CPU过高和安全性问题。组件提取文本速度快,质量高,跨平台,支持多任务并发,开发简单成本低。提供多种语言接口及使用示例。

“Graccvs正文提取组件”支持很多文件格式:

A: pdf文件

B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm"

    C: wps文档 ".wps"

    D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm"

    E: wps表格 ".et"

    F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm"

    G: wps演示 ".dps"

    H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件”

    I: 富文本类型 ".rtf"

    J: HTML页面文件  ".html", ".htm", ".mht", ".mhtml"

    K: 邮件格式文件 ".eml", 注:默认提取前5个附件

    L: 部分思维导图格式文件 ".emmx", "xmind", "gmind"

    M: UTF8编码, Unicode编码, Ansi编码的文本文件,

           ".txt", ".c", ".h", ".cpp", ".m", ".asp", ".aspx", ".cs", ".pas",

          ".php", ".vb", ".bas", ".js", ".css", ".java", ".jsp", ".go",

           ".pl", ".perl", ".ps", ".py", ".python", ".sql", ".rs", ".dart"

          注:可以在配置文件中增加纯文本文件后缀 

      N: 帮助文件 “*.chm",注:此格式仅限Windows平台

     O: 压缩文件 ".zip", 注:默认提取前5个文件

以下是 使用Eclipse开发工具,Java调用动态链接库示例:

调用过程:
1:创建JAVA工程。
2:工程导入调用DLL的扩展包Native(jna-jpms-5.9.0.jar 和 jna-platform-jpms-5.9.0.jar)。
3:拷贝 graccvs64.dll到工程中,LibGraccvs.java单元修改DLL位置(默认在exe输出位置)。
4:实现提取文件正文函数,点击这里查看

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值