[pdf]使用spire读取PDF的文字和图片

本文介绍了一个使用Java编程提取PDF文件中文字和图片的示例,通过引入Spire免费版库,可以读取并处理PDF文档。由于免费版限制,每次只能处理10页,程序加载PDF后逐页提取内容并保存到文本文件,同时导出图片为JPEG格式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

最近在梳理某项目的数据标准,从标准网下载了很多PDF格式的标准文件,需要提取文字和图片,所以写了个程序提取;本文使用了免费版的Spire。

约束

免费版的Spire一次只能提取PDF的10页。

环境配置

     pom.xml

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>http://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.pdf.free</artifactId>
        <version>5.1.0</version>
    </dependency>
</dependencies>

示例代码

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.widget.PdfPageCollection;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;


public class TestMain1 {

    public static void main(String[] args) {
        String basePath = System.getProperty("user.dir");
        String pdfDir=basePath+File.separator+"src"+File.separator+"pdfDir";
        String fileName="GBT 1992-2006 集装箱术语.pdf";
        String fileFullName=pdfDir+File.separator+fileName;
        System.out.println("文件路径:"+fileFullName);
        System.out.println(" ====begin read pdf====");
        long l = System.currentTimeMillis();
        try {
            printPdfInfo(fileFullName,pdfDir);
        } catch (Exception e) {
            e.printStackTrace();
        }
        long l1 = System.currentTimeMillis();
        System.out.println("=====end pdf parse success;共耗时 " + (l1 -l) + " ms =====");
    }


    public static void printPdfInfo(String filePath,String outPath) throws Exception {
        //加载测试文档
        PdfDocument pdf = new PdfDocument();
        pdf.loadFromFile(filePath);
        // 按每页获取文件内容
        PdfPageCollection pages = pdf.getPages();
        // pdf每页对象
        PdfPageBase page;
        System.out.println("PDF总页数:"+pages.getCount());

        if (pages.getCount() > 0) {
            //写入文件
            FileWriter writer = new FileWriter(outPath+File.separator+"extractText.txt");

            for (int i = 0; i < pages.getCount(); i++) {
                page = pages.get(i);
                System.out.println(" 第 " + (i + 1) + " 页 ");

                StringBuilder sb = new StringBuilder();
                // 按原内容格式输出
                String text = page.extractText(true);
                if(text.equalsIgnoreCase("") )
                {
                    System.out.println("内容为空!");
                }
                else
                {
                    System.out.println(" *****内容如下 *****");
                    System.out.println(text);
                    sb.append(text);
                }

                //System.out.println(text.replace("Evaluation Warning : The document was created with Spire.PDF for Java.",""));

                //将StringBuilder对象中的文本写入到txt
                writer.write(sb.toString());
                writer.flush();

               BufferedImage[] bufferedImages = page.extractImages(true);
                int index = 1;
                if (bufferedImages.length>0)
                {
                  for (BufferedImage image : bufferedImages)
                  {
                     System.out.println(" =====图片信息如下=====");
                     System.out.println(image);
                    File output = new File(String.format(outPath+File.separator+"page%d_image%d.JPEG", i+1,index));
                    ImageIO.write(image, "JPEG", output);
                    index++;
                  }
                }
            }
        }
        pdf.close();
    }
 
}

执行结果

读取PDF文件中的信息 package com.zht; import java.io.File; import java.io.UnsupportedEncodingException; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.SQLException; import java.util.ArrayList; import java.util.List; import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; public class ReadPDF { public static void main(String[] args) { //需要复制的目标文件或目标文件夹 String pathname = "F:\\读取PDF中的信息"; // File file = new File(pathname); List list = new ArrayList(); readFile(pathname,list); for(int j=0;j<list.size();j++) { // System.out.println("当前第"+(j+1)+"个----"+list.get(j)); //创建PdfDocument实例 PdfDocument doc = new PdfDocument(); //加载PDF文件 doc.loadFromFile(list.get(j)); StringBuilder sb = new StringBuilder(); PdfPageBase page; //遍历PDF页面,获取文本 for (int i = 0; i < doc.getPages().getCount(); i++) { page = doc.getPages().get(i); sb.append(page.extractText(true)); } // System.out.println(sb.toString()); String str = getStr(sb.toString()); System.out.println(str); String[] arr = str.split(";"); String gh = ""; String gw = ""; for(int i=0;i<arr.length;i++) { arr[i] = arr[i].trim(); if(i==0) { gh = arr[i]; }else if(i==1) { gw = arr[i]; }else { arr[i] = arr[i].replace(gh, "").replace(gw, ""); } } // System.out.println(); insertSQL(arr); // FileWriter writer; // try { ////将文本写入文本文件 // writer = new FileWriter("f://ExtractText.txt"); // writer.write(sb.toString()); // writer.flush(); // } catch (IOException e) { // e.printStackTrace(); // } doc.close(); } } public static String getStr2(String str) { try { byte[] bs = str.getBytes("utf-8"); for(int i=0;i<bs.length;i++) { byte b = bs[i]; if(b==0) { bs[i]=9; } } str =
免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat其他外部控件的情况下,运用.NET 应用程序阅读,编写操纵PDF 文档。Spire.PDF for .NET不仅可以运用在服端比如:ASP.NET 或者其他环境,还可以应用在Windows Forms 应用程序中。Spire.PDF for .NET 适合应用于所有常见的坏境中,比如:创建好的PDF文档可以存到磁盘中, 还可以在Windows Forms应用程序,ASP.NET 应用程序客户端浏览器中保存为数据流。 Spire.PDF for .NET 功能丰富。 除了基本的功能比如:绘制多种图形,图片,创建窗体字段,插入页眉页脚,输入数据表,自动对大型表格进行分页外,Spire.PDF for .NET还支持PDF数字签名,将HTML转换成PDF格式,提取PDF文档中的文本信息图片,存为文本格式各种图片格式,甚至可以将PDF中的附件提取出来。 主要功能 支持嵌入式字体,Truetype 字体CJK字体。 支持绘图。比如:矩形,环形,弧形,椭圆形,也可以自定笔刷将其填充。 可以将图片从数据流,磁盘文件中载入到PDF 文档中。 在PDF 文档中既可以绘制梯状图形矢量图像,还支持掩模水印图像。 可以在PDF 文档中载入数据表。可以设置表中的行列的格式,还可以在表内加入图形元素。 自动对PDF 中的大型表格进行分页。 创建窗体字段。比如在PDF 文档中创建按钮,文本框,列表框,复选框等等。 在PDF 中插入页眉页脚。 通过设置所有者密码用户密码来加密PDF文档。 通过作者的签名来保护PDF文档。 读取当前PDF文档的表格并且填充表格。 HTML网页在转换到PDF文档时会拆分为多个大型页面,这些页面可以原原本本的展现在PDF文档中,而且在PDF文档的分页处没有任何文字的截断。用户还可以将这些网页在不需要临时文件的情况下,直接转换为数据流来创建PDF文档。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值