Apache Tika代码示例：使用 Tika 从 PDF 文件中提取文本

学亮编程手记

已于 2025-03-19 17:22:52 修改

阅读量994

点赞数 15

分类专栏：后台编程文章标签： apache pdf

于 2025-03-19 17:22:40 首次发布

本文链接：https://blog.csdn.net/a772304419/article/details/146375855

版权

后台编程专栏收录该内容

1544 篇文章

订阅专栏

Apache Tika 是一个内容分析工具包，它能够从各种类型的文档中提取元数据和文本内容。Tika 支持多种文件格式，包括但不限于 PDF、Word 文档、Excel 表格、PowerPoint 演示文稿、HTML、XML、图像文件等。Tika 的设计目标是提供一种简单且一致的方式来处理不同格式的文件。

主要功能

元数据提取：Tika 可以从文件中提取出诸如作者、创建日期、修改日期等元数据信息。
文本提取：Tika 能够解析文件并提取其中的文本内容，这对于需要对文档进行全文搜索或自然语言处理的应用非常有用。
语言检测：Tika 还具备识别文档所用语言的能力。
MIME 类型检测：通过文件的内容来确定其 MIME 类型（例如 application/pdf 或 text/plain）。

使用场景

搜索引擎：在构建企业级搜索系统时，可以使用 Tika 来索引非结构化数据。
数据分析：对于需要从大量不同格式的文档中收集信息的数据分析项目来说，Tika 提供了一个强大的工具集。
文档管理系统：帮助实现更智能的文档管理解决方案，自动分类和标记上传的文件。
安全审计：检查传入或传出组织边界的文件是否包含敏感信息。

如何使用 Apache Tika

1. 安装

你可以通过 Maven 将 Tika 添加到你的 Java 项目中。在 pom.xml 文件里加入以下依赖：

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.4.1</version> <!-- 请根据最新版本调整 -->
</dependency>
<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>2.4.1</version> <!-- 同上 -->
</dependency>

2. 示例代码

下面是一个简单的例子，演示如何使用 Tika 从 PDF 文件中提取文本：

import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;

public class TikaExample {
    public static void main(String[] args) {
        try (FileInputStream input = new FileInputStream(new File("example.pdf"))) {
            // 创建 Tika 实例
            Tika tika = new Tika();
            
            // 获取文件的 MIME 类型
            String mimeType = tika.detect(input);
            System.out.println("Detected MIME type: " + mimeType);

            // 重置输入流位置
            input.getChannel().position(0);

            // 准备解析器
            BodyContentHandler handler = new BodyContentHandler(-1); // -1 表示不限制输出大小
            Metadata metadata = new Metadata();
            ParseContext context = new ParseContext();

            // 解析 PDF 并获取内容
            PDFParser parser = new PDFParser();
            parser.parse(input, handler, metadata, context);

            // 输出结果
            System.out.println("Extracted text:\n" + handler.toString());
            System.out.println("Metadata:");
            String[] metadataNames = metadata.names();
            for (String name : metadataNames) {
                System.out.println(name + ": " + metadata.get(name));
            }
        } catch (IOException | SAXException | TikaException e) {
            e.printStackTrace();
        }
    }
}