[pdf]使用spire读取PDF的文字和图片

just-do-it-zzj

已于 2023-04-12 17:01:06 修改

阅读量2.4k

点赞数

分类专栏： nlp 文章标签： pdf maven

于 2023-04-12 10:37:04 首次发布

本文链接：https://blog.csdn.net/henku449141932/article/details/130101364

版权

nlp 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了一个使用Java编程提取PDF文件中文字和图片的示例，通过引入Spire免费版库，可以读取并处理PDF文档。由于免费版限制，每次只能处理10页，程序加载PDF后逐页提取内容并保存到文本文件，同时导出图片为JPEG格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

最近在梳理某项目的数据标准，从标准网下载了很多PDF格式的标准文件，需要提取文字和图片，所以写了个程序提取；本文使用了免费版的Spire。

约束

免费版的Spire一次只能提取PDF的10页。

环境配置

pom.xml

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf.free</artifactId>
        <version>5.1.0</version>
    </dependency>
</dependencies>

示例代码

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.widget.PdfPageCollection;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;


public class TestMain1 {

    public static void main(String[] args) {
        String basePath = System.getProperty("user.dir");
        String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
        String fileName="GBT 1992-2006 集装箱术语.pdf";
        String fileFullName=pdfDir+File.separator+fileName;
        System.out.println("文件路径："+fileFullName);
        System.out.println(" ====begin read pdf====");
        long l = System.currentTimeMillis();
        try {
            printPdfInfo(fileFullName,pdfDir);
        } catch (Exception e) {
            e.printStackTrace();
        }
        long l1 = System.currentTimeMillis();
        System.out.println("=====end pdf parse success;共耗时 " + (l1 -l) + " ms =====");
    }


    public static void printPdfInfo(String filePath,String outPath) throws Exception {
        //加载测试文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile(filePath);
        // 按每页获取文件内容
        PdfPageCollection pages = pdf.getPages();
        // pdf每页对象
        PdfPageBase page;
        System.out.println("PDF总页数："+pages.getCount());

        if (pages.getCount() > 0) {
            //写入文件
            FileWriter writer = new FileWriter(outPath+File.separator+"extractText.txt");

            for (int i = 0; i < pages.getCount(); i++) {
                page = pages.get(i);
                System.out.println(" 第 " + (i + 1) + " 页 ");

                StringBuilder sb = new StringBuilder();
                // 按原内容格式输出
                String text = page.extractText(true);
                if(text.equalsIgnoreCase("") )
                {
                    System.out.println("内容为空！");
                }
                else
                {
                    System.out.println(" *****内容如下 *****");
                    System.out.println(text);
                    sb.append(text);
                }

                //System.out.println(text.replace("Evaluation Warning : The document was created with Spire.PDF for Java.",""));

                //将StringBuilder对象中的文本写入到txt
                writer.write(sb.toString());
                writer.flush();

               BufferedImage[] bufferedImages = page.extractImages(true);
                int index = 1;
                if (bufferedImages.length>0)
                {
                  for (BufferedImage image : bufferedImages)
                  {
                     System.out.println(" =====图片信息如下=====");
                     System.out.println(image);
                    File output = new File(String.format(outPath+File.separator+"page%d_image%d.JPEG", i+1,index));
                    ImageIO.write(image, "JPEG", output);
                    index++;
                  }
                }
            }
        }
        pdf.close();
    }
 
}