关于PDFBox读取Identity-H编码的乱码问题,附pdf

软件版本:pdfbox-0.8.0-incubating

PDF转换软件:Adobe Acrobat6.0,Foxit PDF Creator

问题描述:用比较专业的Foxit PDF Creator转换没有问题,用Acrobat转换时,转换出的pdf可以正常用Adobe Reader打开,但是用pdfbox打开出现乱码。

转换方法,打开word文件,选择打印,选择打印机如图

转换后可以看到pdf的字体有所不同,是Identity-H

而用Foxit转换出来的正常可以读取的pdf文件字体应该是UniGB-USC2-H

所以字体应该出现在字体编码上,不知道有没有解决方案。运行结果如下:

解析pdf的源码如下:

 

	public void testPDF() {
		try {
			String ts = GetTextFromPdf("c:\\temp\\test.pdf");
			System.out.println(ts);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	public String GetTextFromPdf(String filename) throws Exception {
		
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值