java中使用tika_关于Apache Tika的学习和使用

一. Apache Tika的简介

Apache Tika 是利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具,编程语言为Java。

其功能包括:

1.侦测文档的类型,字符编码,语言,等其他现有文档的属性。

2.提取结构化的文字内容。

Tika的架构:

下图为Tika的架构以及关键零部件的主要设计目标:由一个解析器框架,MIME检测机制,语言检测,和一个facade组件联系所有组件。外部接口,包括命令行和图形界面,允许用户集成到脚本或者应用程序,并与Tika直接交互。在整个结构中,Tika的体系结构是可扩展的,新的解析器可以轻松地添加和删除。

032c2c0319e1

1358587548_5967.JPG

二. Tika的下载及安装

032c2c0319e1

image

在cmd里键入命令打开GUI图形界面

032c2c0319e1

QQ图片20180521224546.png

032c2c0319e1

image.png

三. 文件解析

先编写一个二进制文件tika.txt

032c2c0319e1

QQ图片20180521224615.png

用GUI图形界面打开这个文件,显示提取的元数据Metadata

032c2c0319e1

QQ图片20180521224605.png

再将其解析为其他格式

Formatted Text

032c2c0319e1

QQ图片20180521224622.png

Plain text

032c2c0319e1

QQ图片20180521224626.png

Main content为空

032c2c0319e1

QQ图片20180521224630.png

XML

032c2c0319e1

QQ图片20180521224635.png

json

032c2c0319e1

QQ图片20180521224639.png

四. 用命令行使用tika

查看Tika命令行的基本参数

032c2c0319e1

QQ图片20180521224642.png

用命令将解析doc文件

032c2c0319e1

QQ图片20180521224655.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值