实验对象:Apache Tika
实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识
目录
Apache Tika简介
配置Apache Tika运行环境
用GUI图形界面进行文件格式转换的尝试
用命令行使用Tika
在java工程中使用Tika
1. Apache Tika 简介
Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。
Tika诞生历程
Tika 架构
Tika 体系结构的四个模块
语言检测机制
MIME检测机制
Parser接口
Tika Facade类
Tika主要功能
文档类型检测
内容提取
元数据提取<