在日常工作中,有时可能会需要从庞大的PDF 文档中提取其中所包含的文本内容。通过在网上搜索资料后发现,Free Spire.PDF for Java 正好为我们提供了一种方便快捷的文本提取方法,下面就分享一下解决思路及过程中使用到的Java 代码。
基本思路:
2. 将lib文件夹下的Spire.Pdf.jar包作为依赖项导入到Java应用程序中,或者通过Maven仓库安装JAR包(配置pom.xml文件的代码见下文)
3. 在Java应用程序中新建一个Java Class(此处我命名为ExtractText), 然后输入相应的Java代码并运行
配置pom.xml文件:
com.e-iceblue
http://repo.e-iceblue.cn/repository/maven-public/
e-iceblue
spire.pdf.free
2.6.3
PDF源文档如下:
Java代码
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractText {
public static void main(String[] args) {
//创建PdfDocument实例
PdfDocument doc = new PdfDocument();
//加载PDF文件
doc.loadFromFile("test.pdf");
//创建StringBuilder实例
Stri