需要解析的pdf是一个发票
没有废话,先导入pdfbox的依赖
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.16</version>
</dependency>
我先是这样写的,pdf相关的对象都是org.apache.pdfbox包下的,就不写了
@Test
public void test1() throws Exception {
PDDocument pdDocument = PDDocument.load(new File("D:\\work\\file\\temp\\普通电子发票.pdf"));
if (pdDocument.isEncrypted()) {//加密
System.out.println("pdDocument.isEncrypted");
return;
}
PDPage page = pdDocument.getPage(0);//第一页
PDFTextStripperByArea pdfTextStripper =