关于PDFBox读取Identity-H编码的乱码问题，附pdf

最新推荐文章于 2022-03-15 20:02:03 发布

shappy1978

最新推荐文章于 2022-03-15 20:02:03 发布

阅读量3.9k

点赞数

分类专栏： J2EE 文章标签： junit Java Eclipse Apache SUN

软件版本：pdfbox-0.8.0-incubating

PDF转换软件：Adobe Acrobat6.0,Foxit PDF Creator

问题描述：用比较专业的Foxit PDF Creator转换没有问题，用Acrobat转换时，转换出的pdf可以正常用Adobe Reader打开，但是用pdfbox打开出现乱码。

转换方法，打开word文件，选择打印，选择打印机如图

转换后可以看到pdf的字体有所不同，是Identity－H

而用Foxit转换出来的正常可以读取的pdf文件字体应该是UniGB-USC2-H

所以字体应该出现在字体编码上，不知道有没有解决方案。运行结果如下：

解析pdf的源码如下：

	public void testPDF() {
		try {
			String ts = GetTextFromPdf("c:\\temp\\test.pdf");
			System.out.println(ts);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	public String GetTextFromPdf(String filename) throws Exception {

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shappy1978

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于PDFBox读取Identity-H编码的乱码问题，附pdf

软件版本：pdfbox-0.8.0-incubatingPDF转换软件：Adobe Acrobat6.0,Foxit PDF Creator问题描述：用比较专业的Foxit PDF Creator转换没有问题，用Acrobat转换时，转换出的pdf可以正常用Adobe Reader打开，但是用pdfbox打开出现乱码。转换方法，打开word文件，选择打印，选择打印机如图转换后可...
复制链接

扫一扫