[pdf]使用pdfbox读取PDF的文字和图片的实例

概述

最近在梳理某项目的数据标准,从标准网下载了很多PDF格式的标准文件,需要提取文字和图片,所以写了个程序提取;本文使用了开源的pdfbox。

环境配置

     pom.xml

<dependencies>
   <dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>
</dependencies>

示例代码

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import javax.imageio.ImageIO;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileWriter;
import java.io.IOException;

public class TestMain {
    public static void main(String[] args) {
        String basePath = System.getProperty("user.dir");
        String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
        String fileName="GBT 1992-2006 集装箱术语.pdf";
        String fileFullName=pdfDir+File.separator+fileName;
        System.out.println("pdf文件路径:"+fileFullName);
        System.out.println("====read pdf begin ====");
        long l = System.currentTimeMillis();
        try {
             readPDF(fileFullName, pdfDir);
        } catch (Exception e) {
            e.printStackTrace();
        }
        long l1 = System.currentTimeMillis();
        System.out.println(" ===== end pdf parse success;共耗时 " + (l1 -l) + " ms =====");

    }

    /*
     * 读PDF文件,使用了pdfbox开源项目
     */
    public static void readPDF(String fileName,String outPath) {
        File file = new File(fileName);
        FileInputStream in = null;
        try {

            // 获取解析后得到的PDF文档对象
            PDDocument pdfdocument = PDDocument.load(file);

            int pageNumbers=pdfdocument.getNumberOfPages();
            System.out.println("PDF总页数:"+pageNumbers);
           //新建一个PDF文本剥离器
            PDFTextStripper stripper = new PDFTextStripper();
            //sort设置为true 则按照行进行读取,默认是false
            stripper.setSortByPosition(true);
           // 写入到文件
            FileWriter fileWriter = new FileWriter(new File(outPath+File.separator+"pdf_extractText.txt"));

            for(int i=1;i<=pdfdocument.getNumberOfPages();i++)
            {
                //读取文字
                System.out.println("第 " + i + " 页 " );
                stripper.setStartPage(i);
                stripper.setEndPage(i);
                String result = stripper.getText(pdfdocument);
                System.out.println("PDF文件的文本内容如下:");
                System.out.println(result);
                fileWriter.write(result);
                fileWriter.flush();


                //读取图片
                PDPage page=pdfdocument.getPage(i-1);
                PDResources pdResources = page.getResources();
                int index=1;
                //获取页中的对象
                System.out.println("PDF文件的图片:");
                for(COSName csName : pdResources.getXObjectNames())
                {
                    PDXObject pdxObject = pdResources.getXObject(csName);
                    if(pdxObject instanceof PDImageXObject){
                        PDStream pdStream = pdxObject.getStream();
                        PDImageXObject image = new PDImageXObject(pdStream, pdResources);
                        File imgFile = new File(String.format(outPath+File.separator+"page%d-image%d.jpeg", i,index++));
                        ImageIO.write(image.getImage(), "jpeg", imgFile);
                    }
                }

             }

             fileWriter.close();
        }
            catch (Exception e) {
            System.out.println("读取PDF文件" + file.getAbsolutePath() + "生失败!" + e);
            e.printStackTrace();
        } finally {
            if (in != null) {
                try {
                    in.close();
                } catch (IOException e1) {
                }
            }
        }
    }

}

执行结果

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值