软件版本:pdfbox-0.8.0-incubating
PDF转换软件:Adobe Acrobat6.0,Foxit PDF Creator
问题描述:用比较专业的Foxit PDF Creator转换没有问题,用Acrobat转换时,转换出的pdf可以正常用Adobe Reader打开,但是用pdfbox打开出现乱码。
转换方法,打开word文件,选择打印,选择打印机如图
转换后可以看到pdf的字体有所不同,是Identity-H
而用Foxit转换出来的正常可以读取的pdf文件字体应该是UniGB-USC2-H
所以字体应该出现在字体编码上,不知道有没有解决方案。运行结果如下:
解析pdf的源码如下:
public void testPDF() {
try {
String ts = GetTextFromPdf("c:\\temp\\test.pdf");
System.out.println(ts);
} catch (Exception e) {
e.printStackTrace();
}
}
public String GetTextFromPdf(String filename) throws Exception {