java box边界_java – 使用PDFBox读取文本和图像位置(x.y坐标)

看看org.apache.pdfbox.examples.util.PrintTextLocations.我已经使用了很多,对PDF文档中的元素和边界框的布局进行分析非常有帮助.它还显示了用白色墨水或可打印区域外打印的项目(可能是文档水印,或作者推出的“遗忘”项目).

用法示例:

java -cp app/target/pdfbox-app-1.5.0.jar org.apache.pdfbox.examples.util.PrintTextLocations ~/tmp/mydoc.pdf >~/tmp/out-text-locations.txt

你会得到类似的东西:

Processing page: 0

String[53.9,59.856995 fs=-6.0 xscale=6.0 height=-3.666 space=1.3320001 width=4.6679993]A

String[58.568,59.856995 fs=-6.0 xscale=6.0 height=-3.666 space=1.3320001 width=2.6640015]f

String[61.232002,59.856995 fs=-6.0 xscale=6.0 height=-3.666 space=1.3320001 width=1.6679993]e

...

您可以轻松地解析并使用每个页面绘制元素的位置,边界框和“流程”(通过所有元素的轨迹)等.我相信您已经知道,您会发现PDF几乎不可能转换为文本.它实际上只是一种图形描述格式(即用于打印机或屏幕),而不是标记语言.您可以轻松地制作一个打印“Hello world”的PDF,但是它会随机跳过字符位置(如果您愿意,它会使用与任何ISO字符编码不同的字形),这使得PDF很难转换为文本.没有“单词”或“段落”的概念.例如,两列文档可能是解析文本的噩梦.

对于问题的第二部分,在修复Xref.cc(make XRef :: okToPrint(),XRef :: okToChange(),XRef :: okToCopy()和XRef :: okToAddNotes(修改后)后,使用xpdf 3.02版得到了很好的结果( )全部返回gTrue).那是处理锁定的文件,而不是加密的文件(还有其他的工具).

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值