http://drunkfish.spaces.live.com/blog/cns!FC3E3585A287F598!372.entry
看源码发现有一个包org.apache.pdfbox.encoding.conversion, 这里已经有了各自中文编码的解析程序. 可奇怪的是却没有任何地方调用这些程序. 所以解析pdf文档是依然会报IOException说UniGB-UCS2-H等字体找不到. 看来只有修改源码来解决了. 仔细研究代码后, 发现修改点是程序org.apache.pdfbox.pdmodel.font.PDFont.java
首先增加一个方法以得到字体信息
public String getEncodingName() {
COSBase encoding
COSBase encoding