[pdf]使用spire读取PDF的文字和图片

概述

最近在梳理某项目的数据标准,从标准网下载了很多PDF格式的标准文件,需要提取文字和图片,所以写了个程序提取;本文使用了免费版的Spire。

约束

免费版的Spire一次只能提取PDF的10页。

环境配置

     pom.xml

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf.free</artifactId>
        <version>5.1.0</version>
    </dependency>
</dependencies>

示例代码

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.widget.PdfPageCollection;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;


public class TestMain1 {

    public static void main(String[] args) {
        String basePath = System.getProperty("user.dir");
        String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
        String fileName="GBT 1992-2006 集装箱术语.pdf";
        String fileFullName=pdfDir+File.separator+fileName;
        System.out.println("文件路径:"+fileFullName);
        System.out.println(" ====begin read pdf====");
        long l = System.currentTimeMillis();
        try {
            printPdfInfo(fileFullName,pdfDir);
        } catch (Exception e) {
            e.printStackTrace();
        }
        long l1 = System.currentTimeMillis();
        System.out.println("=====end pdf parse success;共耗时 " + (l1 -l) + " ms =====");
    }


    public static void printPdfInfo(String filePath,String outPath) throws Exception {
        //加载测试文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile(filePath);
        // 按每页获取文件内容
        PdfPageCollection pages = pdf.getPages();
        // pdf每页对象
        PdfPageBase page;
        System.out.println("PDF总页数:"+pages.getCount());

        if (pages.getCount() > 0) {
            //写入文件
            FileWriter writer = new FileWriter(outPath+File.separator+"extractText.txt");

            for (int i = 0; i < pages.getCount(); i++) {
                page = pages.get(i);
                System.out.println(" 第 " + (i + 1) + " 页 ");

                StringBuilder sb = new StringBuilder();
                // 按原内容格式输出
                String text = page.extractText(true);
                if(text.equalsIgnoreCase("") )
                {
                    System.out.println("内容为空!");
                }
                else
                {
                    System.out.println(" *****内容如下 *****");
                    System.out.println(text);
                    sb.append(text);
                }

                //System.out.println(text.replace("Evaluation Warning : The document was created with Spire.PDF for Java.",""));

                //将StringBuilder对象中的文本写入到txt
                writer.write(sb.toString());
                writer.flush();

               BufferedImage[] bufferedImages = page.extractImages(true);
                int index = 1;
                if (bufferedImages.length>0)
                {
                  for (BufferedImage image : bufferedImages)
                  {
                     System.out.println(" =====图片信息如下=====");
                     System.out.println(image);
                    File output = new File(String.format(outPath+File.separator+"page%d_image%d.JPEG", i+1,index));
                    ImageIO.write(image, "JPEG", output);
                    index++;
                  }
                }
            }
        }
        pdf.close();
    }
 
}

执行结果

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值