一般而言
要使用PDFBox提取文本(带或不带位置,颜色等额外信息),可以实例化 PDFTextStripper 或从中派生的类,并使用它:
PDFTextStripper stripper = new PDFTextStripper();
String text = stripper.getText(document);
(有许多 PDFTextStripper 属性允许您限制从中提取文本的页面 . )
在执行 getText 的过程中,解析所讨论的页面的内容流(以及从这些页面引用的形式的xObject),并处理文本绘制命令 .
如果要更改文本提取行为,则必须通过重写此方法来更改此文本绘制命令处理,这通常应该执行此操作:
/**
* Write a Java string to the output stream. The default implementation will ignore the textPositions
* and just calls {@link #writeString(String)}.
*
* @param text The text to write to the stream.
* @param textPositions The TextPositions belonging to the text.
* @throws IOException If there is an error when writing the text.
*/
protected void writeString(String text, List textPositions) throws IOException</