java获取pdf特定内容的位置_java – 从PDF中提取包含字符串位置的所有文本

这可能看起来是一个老问题,但是我花了半个小时搜索了所有的SO后才找到一个详尽的答案.

我正在使用PDFBox,我想从PDF文件中提取所有文本以及每个字符串的坐标.我正在使用他们的PrintTextLocations示例(http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html),但是我正在使用的那种pdf(电子票证)程序无法识别字符串,分别打印每个字符.输出是一个字符串列表(每个字符串代表一个TextPosition对象),如下所示:

String[414.93896,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.0] s

String[418.93896,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.447998] a

String[423.38696,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=1.776001] l

String[425.16296,637.2442 fs=1.0 xscale=8.0 height=4.94 space=2.2240002 width=4.447998] e

虽然我希望程序将字符串“sale”识别为一个独特的TextPosition并给我它的位置.

我还尝试使用setSpacingTolerance()和setAverageCharacterTolerance()PDFTextStripper方法,在标准值之上和之下设置不同的值(FYI分别为0.5和0.3),但输出完全没有变化.我哪里错了?提前致谢.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值