文件内容读取--Tika

最新推荐文章于 2024-05-29 10:07:30 发布

supermancoke

最新推荐文章于 2024-05-29 10:07:30 发布

阅读量3.7k

点赞数

文章标签：文档内容

本文链接：https://blog.csdn.net/supermancoke/article/details/69942946

版权

功能介绍

Tika是Apache下开源的文档内容解析工具，支持上千种文档格式（如PPT、XLS、PDF）。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现，可用于搜索引擎索引、内容分析、转换等场景。

官方网站：https://tika.apache.org/

支持格式：https://tika.apache.org/1.14/formats.html

开发示例

案例使用Tika1.14版本，Maven进行开发

引入Tika包

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>1.14</version>
  </dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.14</version>
  </dependency>

代码开发

简单解析

Tika支持简单的解析方法，解析文件的内容为String

String content;
Tika tika = new Tika();
try (InputStream stream = TikaTest.class.getResourceAsStream("/doc/XX_中文_20170109_44631986.doc")) {
        content = tika.parseToString(stream);
}

Prase解析

也可以使用更灵活的Tika Prase方法进行解析

String content;
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
try (InputStream stream = TikaTest.class.getResourceAsStream("/doc/XX_中文_20170109_44631986.doc")) {
    parser.parse(stream, handler, metadata);
    content = handler.toString();
}
System.out.println(content);

解析为XHMTL格式

String content;     
AutoDetectParser parser = new AutoDetectParser();
//解析为XHTML
ContentHandler handler = new ToXMLContentHandler();
Metadata metadata = new Metadata();
try (InputStream stream = TikaTest.class.getResourceAsStream("/doc/XX_中文_20170109_44631986.doc")) {
    parser.parse(stream, handler, metadata);
    content = handler.toString();
}
System.out.println(content);

supermancoke

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
文件内容读取--Tika

功能介绍Tika是Apache下开源的文档内容解析工具，支持上千种文档格式（如PPT、XLS、PDF）。Tika使用统一的方法对各种类型文件进行内容解析,封装了各种格式解析的内部实现，可用于搜索引擎索引、内容分析、转换等场景。官方网站：https://tika.apache.org/支持格式：https://tika.apache.org/1.14/formats.html开发示例案例使用Ti
复制链接

扫一扫