在尝试pdf转成String的时候,首先用python的pdfminer和pdfminer3k去尝试转换,然后资料看不太懂,就尝试用了java,
以下是java的pdfbox写的pdf转String函数(main函数没有贴出来,直接用的一个全局函数) 需要加入的包有
百度搜一下pdfbox去官网下载一个放在lib里就行了
然后比较重要的突破是能把原来生成格式比较混乱的String处理成比较能看的String
效果如下:
没有转换前输出格式如下
转换后格式:
代码如下:
import java.io.*;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;<