java 取pdf 文本域_使用PDFBox获取文本行的位置

一般而言

要使用PDFBox提取文本(带或不带位置,颜色等额外信息),可以实例化 PDFTextStripper 或从中派生的类,并使用它:

PDFTextStripper stripper = new PDFTextStripper();

String text = stripper.getText(document);

(有许多 PDFTextStripper 属性允许您限制从中提取文本的页面 . )

在执行 getText 的过程中,解析所讨论的页面的内容流(以及从这些页面引用的形式的xObject),并处理文本绘制命令 .

如果要更改文本提取行为,则必须通过重写此方法来更改此文本绘制命令处理,这通常应该执行此操作:

/**

* Write a Java string to the output stream. The default implementation will ignore the textPositions

* and just calls {@link #writeString(String)}.

*

* @param text The text to write to the stream.

* @param textPositions The TextPositions belonging to the text.

* @throws IOException If there is an error when writing the text.

*/

protected void writeString(String text, List textPositions) throws IOException</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值