Java使用Spire.PDF实现对于pdf文档内容的提取

1.Spire.PDF地址

Java 提取或读取 PDF 文本内容

2.实现步骤

1.项目中引入maven依赖

<dependency>
   <groupId>e-iceblue</groupId>
   <artifactId>spire.pdf</artifactId>
   <version>10.3.4</version>
</dependency>
<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>

2.对于本地文件进行提取

package com.XXX;

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public class PdfTestPoi {
    public static void main(String[] args) throws IOException {
        //创建PdfDocument实例
        PdfDocument doc = new PdfDocument();
        //加载PDF文件
        doc.loadFromFile("本地文件地址");
        //创建StringBuilder实例
        StringBuilder stringBuilder =  new StringBuilder();
        PdfPageBase page;
        //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象
        for (int i = 0; i < doc.getPages().getCount(); i++) {
            page = doc.getPages().get(i);
            stringBuilder.append(page.extractText(true));
        }
        System.out.println(stringBuilder);
        doc.close();
    }
}

3.对于网络Pdf资源进行提取

package com.vts;

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;

public class PdfTestPoi {
    public static void main(String[] args) throws IOException {
        //创建PdfDocument实例
        PdfDocument doc = new PdfDocument();
        //加载PDF文件
        URL url = new URL("网络资源地址");
        URLConnection urlConnection = url.openConnection();
        InputStream inputStream = urlConnection.getInputStream();
        doc.loadFromStream(inputStream);
        //创建StringBuilder实例
        StringBuilder stringBuilder =  new StringBuilder();
        PdfPageBase page;
        //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象
        for (int i = 0; i < doc.getPages().getCount(); i++) {
            page = doc.getPages().get(i);
            stringBuilder.append(page.extractText(true));
        }
        System.out.println(stringBuilder);
        doc.close();
    }
}

  • 12
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Java Spire.PDF是一个强大的Java库,可以用于生成和处理PDF文档。它提供了许多易于使用的功能,可以使开发人员轻松地在Java应用程序中操纵PDF文件。 首先,Spire.PDF允许我们创建新的PDF文档并将内容添加到其中。我们可以使用它来添加文本、图像、表格以及其他各种元素。这个库还提供了丰富的文件操作功能,比如可以合并、拆分、重命名、删除和复制PDF页等。 其次,Spire.PDF具有强大的文档转换能力。我们可以将PDF文档转换成多种格式,如Word、Excel、PowerPoint、HTML和图片。同时,我们也可以将其他格式的文件转换成PDF。 此外,Spire.PDF还包括对PDF文档的高级处理功能。我们可以使用它来提取文本、图像和表格数据,进行文档加密和解密,设置文档权限以及添加数字签名等。另外,还可以添加书签、页眉、页脚和水印,进行页面旋转和裁剪等操作。 最后,Spire.PDF提供了丰富的文档操作接口和方法,并且具有良好的文档生成效果。它支持各种PDF标准,包括PDF/A和PDF/X,同时也兼容多种不同版本的Java开发环境。通过使用Spire.PDF,我们可以轻松地在我们的Java应用程序中生成高质量的PDF文档,并对其进行各种操作。 总而言之,Java Spire.PDF是一个功能强大、易于使用Java库,可以帮助开发人员在Java应用程序中生成和处理PDF文档。它具有丰富的功能和灵活的接口,使我们能够轻松地进行各种PDF文档的操作,无论是创建、转换还是处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Aqua️

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值