apache tika技术了解

tika产生背景

随着互联网技术的兴起,大数据的到来,使得各种语言各种信息的获取变得非常简单。从这个角度来说,信息的自动处理、检索,对于跨文化、跨语言的各种内容的理解来说,变得异常重要。而apache的tika,无疑是这种环境下的一种产物,它是一个重要的内容识别和理解的工具。

tika是什么

根据tika的官方解释,它是这样的一个工具集:使用已有的各种解析库(parser libraries),从各种类型的文档中,探测、抽取其中的头数据(metadata)和结构化文本内容。

 tika的功能

1,文档类型识别。主要是各种文件的mime类型确定和识别等。tika会根据已知的mime库以及一系列的scheme(mime MAGIC,URL模式匹配,xml的根字符,或者文件扩展名),来确定某个文件,链接地址,或者文本的片段是否匹配到已知的一种文件类型。如果内容匹配,tika探测到了它的mime类型,然后继续提交给相关的解析器去作进一步的处理。

2,内容抽取。当tika识别出文件的类型后,就可以找出合适的解析器去作进一步的处理,借助于不同的解析工具集,就可以读取到该类型文档里的各个元素的内容。这个功能的一个很重要使用场景是,从各种电子文档中抽取出其中的文本内容,然后去建立一个全文本的搜索索引,这个就需要跟各种不同的解析工具集打交道了,但是殊途同归,目的只有一个,将该文档中的文本信息抽取出来。下列示意图可以做一个简单的处理过程的说明:

tika识别过程

3,metadata获取。借助tika,你可以方便的抽取出任意文件的metadata。

4,语言识别。要做一个基本的搜索引擎,对于文档的语言识别功能必不可少。而语言识别有其自己的识别算法,一般采用N-gram算法。下图中就是针对“人人生而自由,在尊严和权力上一律平等”的阿拉伯语、中文、英文、法语及俄语的不同语种阐述:

tika语言识别

通过tika,你可以很方便的做到语言识别这一点。以下例子是应用tika来识别不同语言版本的pdf文档效果:

tika语言识别

2
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值