tika
沧_海_笑
这个作者很懒,什么都没留下…
展开
-
apache tika技术了解
tika产生背景随着互联网技术的兴起,大数据的到来,使得各种语言各种信息的获取变得非常简单。从这个角度来说,信息的自动处理、检索,对于跨文化、跨语言的各种内容的理解来说,变得异常重要。而apache的tika,无疑是这种环境下的一种产物,它是一个重要的内容识别和理解的工具。tika是什么根据tika的官方解释,它是这样的一个工具集:使用已有的各种解析库(parser lib转载 2014-03-03 22:43:57 · 1657 阅读 · 0 评论 -
Apache Tika:通用的内容分析工具
项目介绍Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个目的明确,使用简单的apache的开源项目。下图是Tika诞生的一个历史过程。Tika项目之初来源于Nu转载 2014-03-03 22:49:21 · 710 阅读 · 0 评论