最近网上有一些朋友问到PDF文件中关于表格,文字,图片的解析,想通过直接看PDF的二进制流是不能做到的,下面我将介绍一个很简单的方法,直接上代码(使用了itextpdf):
@Test
public void testPdfTool() throws IOException {
String outputPath = “d:\view.txt”;
PrintWriter writer = new PrintWriter(new FileOutputStream(outputPath));
String fileName = “d:\view.pdf”;
PdfContentReaderTool.listContentStream(new File(fileName), writer);
}
执行上面的代码可以将PDF文件中的文字和xobject及解压缩之后的content stream保存到指定的文件中。