pdfboxjar包默认是按照行来提取文字的,但是我们的pdf可能并是按照行来进行排序的,那么我们就可能用到坐标矩形选区操作,选取固定区域的文字,原理大家不必纠结,我们只需要拿来用即可,他只是一个工具类,需要时,我们还可以去查与官方文档,去组装自己需要的功能。
提取矩形区域内容:
1、导入pdfboxjar包(每个版本的操作都不一样),这里我使用的是maven
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>1.8.13</version>
</dependency>
2、使用如下代码可以提取文字
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.util.PDFTextStripperByArea;
import java.awt.Rectangle;
import java.io.File;
import java.util.List;
public class ExtractTextByArea{
public static void main( String[] args ) throws Exception{
String file = "C:/Users/Desktop/Wistron 201808 KR HK08 Sorting Handling Fee Invoice 6000499146.p