各位前辈,我最近在做PDF的文本提取和分析。使用的是PDFBox这个工具。在这个工具1.0.8版本中,可以获取到图片,但是获取不到文本,代码如下:
public static void readPDF(String filename){
File file = new File(filename);
FileInputStream in = null;
try {
in = new FileInputStream(filename);
PDFParser parser = new PDFParser(in);
parser.parse();
PDDocument pdDocument = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
String result = stripper.getText(pdDocument);
System.out.println("PDF文件" + file.getAbsolutePath()+"内容如下:");
System.out.println(result);
} catch (IOException e) {
//e.printStackTrace();
}
}
在getText这一步,报错了,错误信息:
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.fontbo