java tika pdf_【Tika基础教程之一】Tika基础教程

最新推荐文章于 2023-03-02 10:42:03 发布

weixin_40002611

最新推荐文章于 2023-03-02 10:42:03 发布

阅读量284

点赞数

文章标签： java tika pdf

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40002611/article/details/114561362

版权

一、快速入门

1、Tika是一个用于文本解释的框架，其本身并不提供任何的库用于解释文本，而是调用各种各样的库，如POI，PDFBox等。

使用Tika，可以提取文件中的作者、标题、创建时间、正文等内容，相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等)：

(1)若文档为纯文本，如txt，html，java文件等，则二者对于文件内容的提取基本无差别，都可将内容呈现出来。

(2)若文档为富文本，如office，pdf等，使用java.io直接读取内容会得到一串乱码，而需要通过种种工具去提取正文内容，如PDFBox提取PDF文件，POI提取office文件等。

TIka已将各种工具作了统一封装，形成统一的API，用于提取文本正文。

但注意：解释文本

上述步骤只是将正文内容提取了出来，如将word文档、Html文档等的正文提取出来，但未对文档正文的内容进行解释，此时需要用到其它的工具如：

(1)DOM4J用于提取XML正文中的内容，如某个元素或者属性的值。

(2)HtmlPaser用于提取HTML正文中的内容，也是提取无素或者属性的值，比如提取文中的超链接等。

Tika是否已经完成此功能的封装还不确认，以后再研究。

2、使用GUI界面解释文本

(1)进入Tika所有的目录，运行以下命令：

java -jar "tika-app-1.5 (1).jar" -g

(2)Tika的图形界面被打开，然后找开File-openURL：

(3)点击确认后，即返回解释结果

默认情况下显示的是文本的元信息

最低0.47元/天解锁文章

weixin_40002611

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java tika pdf_【Tika基础教程之一】Tika基础教程

一、快速入门1、Tika是一个用于文本解释的框架，其本身并不提供任何的库用于解释文本，而是调用各种各样的库，如POI，PDFBox等。使用Tika，可以提取文件中的作者、标题、创建时间、正文等内容，相比于java.io自带的一些功能(如FileInputStream,FIleReader,Scanner等)：(1)若文档为纯文本，如txt，html，java文件等，则二者对于文件内容的提取基本无差...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。