java中使用tika,Apache Tika使用报告

实验对象:Apache Tika

实验目的:通过尝试使用Apache Tika进行文件格式转换,加深对搜索引擎的理解和认识

目录

Apache Tika简介

配置Apache Tika运行环境

用GUI图形界面进行文件格式转换的尝试

用命令行使用Tika

在java工程中使用Tika

1. Apache Tika 简介

4997109a3a4c6162d3f0f060f388f5cd.png

Apache Tika是一个用java编写的内容检测和分析框架,是Apache的Lucene项目的子项目。它能够检测很多不同文件类型的文件,并提取文件的元数据和结构化文本。它提供了一个命令行界面和一个GUI界面,还提供一个java库。可用于自然语言处理过程中文本内容的抽取,以及搜索引擎进行数据抓取后的处理步骤。

33eaf3ed6d9d37a988d7359c50189aa5.png

Tika诞生历程

Tika 架构

Tika 体系结构的四个模块

语言检测机制

MIME检测机制

Parser接口

Tika Facade类

9b64db03e766b56a0fd02d88c659fea8.png

0c80fc7e0a0154cf8b49f61ac0ce2ca1.png

Tika主要功能

文档类型检测

内容提取

元数据提取</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值