ICEpdf 全面介绍：一款强大的 Java 开源 PDF 引擎-CSDN博客

本文链接：https://blog.csdn.net/fenglingguitar/article/details/145623252

随着各种应用程序中对 PDF 文件处理需求的增加，许多开发者开始寻找高效且强大的库来操作和显示 PDF 文件。ICEpdf 是由 IceSoft 提供的开源 PDF 引擎，它专为 PDF 渲染设计，并支持文本提取、图像提取等功能。

在本文中，我们将深入探讨 ICEpdf 的关键功能，展示其实际应用的例子，并解释如何将其集成到 Java 项目中。

什么是 ICEpdf？

ICEpdf 是一款基于 Java 的开源 PDF 库，支持 PDF 渲染、文本提取、图像提取 和其他常见的 PDF 操作。ICEpdf 主要用于将 PDF 文件渲染到 Java 图形用户界面（GUI）上，但它也允许从 PDF 中提取文本、图像和元数据。

该库提供了一个强大且简洁的 API，使其成为 Java 开发者处理 PDF 文件的理想选择。由于 ICEpdf 可以将 PDF 渲染为图像，因此它特别适合需要在图形界面中显示 PDF 的应用程序，或者将 PDF 转换为 PNG、JPEG 等图像格式的需求。

注：项目应该是长期未更新了，maven依赖最后更新为2017，漏洞较多，github上已无代码，但常规功能还可以正常使用。

ICEpdf 的主要特点

PDF 渲染：ICEpdf 可以将 PDF 文件渲染为图像，使你可以在 Java GUI 中显示其内容，或将其转换为 PNG、JPEG 等格式。
文本提取：可以从 PDF 中提取文本，方便后续处理或分析。
图像提取：ICEpdf 允许从 PDF 中提取嵌入的图像。
支持注释：可以检索和操作 PDF 中的注释。
压缩支持：ICEpdf 支持压缩的 PDF 格式，确保即使是大型文件也能高效处理。
跨平台支持：作为一个 Java 库，ICEpdf 可以在所有支持 Java 的平台上运行，包括 Windows、macOS 和 Linux。

将 ICEpdf 集成到 Java 项目中

要在 Java 项目中使用 ICEpdf，你可以将其作为 Maven 依赖集成。然而，ICEpdf 并不在 Maven Central 上提供，所以你需要手动下载或使用第三方仓库。

第一步：添加 ICEpdf 到 Maven 项目

首先，添加以下依赖到你的 pom.xml 文件中：

<dependency>
    <groupId>org.icepdf.core</groupId>
    <artifactId>icepdf-core</artifactId>
    <version>6.3.2</version>
</dependency>

基本使用：渲染 PDF、提取文本和图像

集成 ICEpdf 后，你可以使用它渲染 PDF 页面为图像，并提取其中的内容。以下是一个示例，展示如何加载 PDF 文件，提取每一页的文本内容，并将图像保存为 PNG 文件。

示例代码：渲染 PDF 和提取内容

import org.icepdf.core.exceptions.PDFException;
import org.icepdf.core.exceptions.PDFSecurityException;
import org.icepdf.core.pobjects.Document;
import org.icepdf.core.pobjects.graphics.text.LineText;
import org.icepdf.core.pobjects.graphics.text.PageText;
import org.icepdf.core.pobjects.graphics.text.WordText;

import javax.imageio.ImageIO;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.util.List;

public class ICEpdfTest {

    private static void readTextAndImage(String filePath) {
        try {
            // 加载 PDF 文档
            Document document = new Document();
            document.setFile(filePath);

            // 获取页面数量
            int numberOfPages = document.getNumberOfPages();

            // 遍历每一页，提取文本和图像
            for (int i = 0; i < numberOfPages; i++) {
                // 提取文本内容
                StringBuilder pageContent = new StringBuilder();
                PageText page = document.getPageText(i);
                for (LineText line : page.getPageLines()) {
                    for (WordText text : line.getWords()) {
                        pageContent.append(text.getText());
                    }
                }
                System.out.println("第 " + (i + 1) + " 页内容: \n" + pageContent + "\n");

                // 提取页面中的图像（如果有的话）
                List<Image> imageList = document.getPageImages(i);
                for (Image image : imageList) {
                    System.out.println("第 " + (i + 1) + " 页图像:");

                    // 将 Image 转换为 BufferedImage 进行处理
                    BufferedImage bufferedImage = toBufferedImage(image);
                    byte[] imageBytes = convertImageToByteArray(bufferedImage);

                    // 示例：将图像保存为文件
                    String imageFilePath = "page_" + i + "_image.png";
                    File outputImageFile = new File(imageFilePath);
                    ImageIO.write(bufferedImage, "PNG", outputImageFile);

                    System.out.println("第 " + (i + 1) + " 页图像已保存到: " + imageFilePath);

                    // 打印图像的二进制长度（用于调试）
                    System.out.println("图像二进制长度: " + imageBytes.length);
                }
            }
        } catch (IOException | PDFException | PDFSecurityException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            throw new RuntimeException(e);
        }
    }

    // 将 Image 转换为 BufferedImage 以便处理
    private static BufferedImage toBufferedImage(Image img) {
        if (img instanceof BufferedImage) {
            return (BufferedImage) img;
        }
        BufferedImage bImage = new BufferedImage(img.getWidth(null), img.getHeight(null), BufferedImage.TYPE_INT_RGB);
        Graphics2D bGr = bImage.createGraphics();
        bGr.drawImage(img, 0, 0, null);
        bGr.dispose();
        return bImage;
    }

    // 将 BufferedImage 转换为字节数组（以 PNG 格式）
    private static byte[] convertImageToByteArray(BufferedImage bufferedImage) throws IOException {
        ByteArrayOutputStream baos = new ByteArrayOutputStream();
        ImageIO.write(bufferedImage, "PNG", baos);  // 你可以改为 JPEG 格式等
        return baos.toByteArray();
    }

    public static void main(String[] args) {
        // 输入 PDF 文件路径
        String inputPdfPath = "example.pdf";
        readTextAndImage(inputPdfPath);
    }
}

解释

图像提取：
- 使用 document.getPageImages(i) 方法提取每一页的图像，返回一个 Image 对象列表。
将 Image 转换为 BufferedImage：
- 使用 toBufferedImage 方法将 Image 对象转换为 BufferedImage，方便后续的图像处理和保存。
将 BufferedImage 转换为字节数组：
- convertImageToByteArray 方法使用 ImageIO.write() 将 BufferedImage 写入到 ByteArrayOutputStream 中，从而生成图像的二进制数据。
保存图像：
- 图像通过 ImageIO.write() 被保存为 PNG 格式，并且我们还输出了图像的字节数组长度，用于调试。