apache tika技术了解

最新推荐文章于 2024-07-22 15:57:14 发布

沧_海_笑

最新推荐文章于 2024-07-22 15:57:14 发布

阅读量1.6k

点赞数

分类专栏： tika

tika 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

tika产生背景

随着互联网技术的兴起，大数据的到来，使得各种语言各种信息的获取变得非常简单。从这个角度来说，信息的自动处理、检索，对于跨文化、跨语言的各种内容的理解来说，变得异常重要。而apache的tika，无疑是这种环境下的一种产物，它是一个重要的内容识别和理解的工具。

tika是什么

根据tika的官方解释，它是这样的一个工具集：使用已有的各种解析库（parser libraries），从各种类型的文档中，探测、抽取其中的头数据（metadata）和结构化文本内容。

tika的功能

1，文档类型识别。主要是各种文件的mime类型确定和识别等。tika会根据已知的mime库以及一系列的scheme（mime MAGIC，URL模式匹配，xml的根字符，或者文件扩展名），来确定某个文件，链接地址，或者文本的片段是否匹配到已知的一种文件类型。如果内容匹配，tika探测到了它的mime类型，然后继续提交给相关的解析器去作进一步的处理。

2，内容抽取。当tika识别出文件的类型后，就可以找出合适的解析器去作进一步的处理，借助于不同的解析工具集，就可以读取到该类型文档里的各个元素的内容。这个功能的一个很重要使用场景是，从各种电子文档中抽取出其中的文本内容，然后去建立一个全文本的搜索索引，这个就需要跟各种不同的解析工具集打交道了，但是殊途同归，目的只有一个，将该文档中的文本信息抽取出来。下列示意图可以做一个简单的处理过程的说明：