[pdf]使用pdfbox读取PDF的文字和图片的实例

just-do-it-zzj

已于 2023-04-12 17:01:26 修改

阅读量2.5k

点赞数

分类专栏： nlp 文章标签： pdf

于 2023-04-12 16:59:56 首次发布

本文链接：https://blog.csdn.net/henku449141932/article/details/130111514

版权

nlp 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了如何利用ApachePDFBox库在Java环境中提取PDF文件中的文字和图片。通过加载PDF文档，遍历每一页，使用PDFTextStripper获取文字内容并保存，同时提取PDImageXObject对象以保存图片。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

最近在梳理某项目的数据标准，从标准网下载了很多PDF格式的标准文件，需要提取文字和图片，所以写了个程序提取；本文使用了开源的pdfbox。

环境配置

pom.xml

<dependencies>
   <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>
</dependencies>

示例代码

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import javax.imageio.ImageIO;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;

public class TestMain {
    public static void main(String[] args) {
        String basePath = System.getProperty("user.dir");
        String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
        String fileName="GBT 1992-2006 集装箱术语.pdf";
        String fileFullName=pdfDir+File.separator+fileName;
        System.out.println("pdf文件路径："+fileFullName);
        System.out.println("====read pdf begin ====");
        long l = System.currentTimeMillis();
        try {
             readPDF(fileFullName, pdfDir);
        } catch (Exception e) {
            e.printStackTrace();
        }
        long l1 = System.currentTimeMillis();
        System.out.println(" ===== end pdf parse success;共耗时 " + (l1 -l) + " ms =====");

    }

    /*
     * 读PDF文件，使用了pdfbox开源项目
     */
    public static void readPDF(String fileName,String outPath) {
        File file = new File(fileName);
        FileInputStream in = null;
        try {

            // 获取解析后得到的PDF文档对象
            PDDocument pdfdocument = PDDocument.load(file);

            int pageNumbers=pdfdocument.getNumberOfPages();
            System.out.println("PDF总页数："+pageNumbers);
           //新建一个PDF文本剥离器
            PDFTextStripper stripper = new PDFTextStripper();
            //sort设置为true 则按照行进行读取，默认是false
            stripper.setSortByPosition(true);
           // 写入到文件
            FileWriter fileWriter = new FileWriter(new File(outPath+File.separator+"pdf_extractText.txt"));

            for(int i=1;i<=pdfdocument.getNumberOfPages();i++)
            {
                //读取文字
                System.out.println("第 " + i + " 页 " );
                stripper.setStartPage(i);
                stripper.setEndPage(i);
                String result = stripper.getText(pdfdocument);
                System.out.println("PDF文件的文本内容如下：");
                System.out.println(result);
                fileWriter.write(result);
                fileWriter.flush();


                //读取图片
                PDPage page=pdfdocument.getPage(i-1);
                PDResources pdResources = page.getResources();
                int index=1;
                //获取页中的对象
                System.out.println("PDF文件的图片：");
                for(COSName csName : pdResources.getXObjectNames())
                {
                    PDXObject pdxObject = pdResources.getXObject(csName);
                    if(pdxObject instanceof PDImageXObject){
                        PDStream pdStream = pdxObject.getStream();
                        PDImageXObject image = new PDImageXObject(pdStream, pdResources);
                        File imgFile = new File(String.format(outPath+File.separator+"page%d-image%d.jpeg", i,index++));
                        ImageIO.write(image.getImage(), "jpeg", imgFile);
                    }
                }

             }

             fileWriter.close();
        }
            catch (Exception e) {
            System.out.println("读取PDF文件" + file.getAbsolutePath() + "生失败！" + e);
            e.printStackTrace();
        } finally {
            if (in != null) {
                try {
                    in.close();
                } catch (IOException e1) {
                }
            }
        }
    }

}