使用PDFBOX提取PDF中的文字

原创已于 2023-02-02 23:53:04 修改 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #pdf #pdfbox

于 2022-06-21 12:32:16 首次发布

工作杂记专栏收录该内容

31 篇文章

订阅专栏

这段代码展示了如何使用PDFBox库从PDF文档中提取文本，并在每个新行开始时记录坐标位置。通过设置PDFTextStripper的回调方法，可以获取文本及其在页面上的初始位置。

            PDDocument pdf = PDDocument.load(new File(srcFilePath));
            PDPageTree pageTree = pdf.getPages();
            int count = pageTree.getCount();
            returnList = new String[count];
            PDFTextStripper stripper = new PDFTextStripper() {
                @Override
                protected void startPage(PDPage page) throws IOException {
                    startOfLine = true;
                    super.startPage(page);
                }
                @Override
                protected void writeLineSeparator() throws IOException {
                    startOfLine = true;
                    super.writeLineSeparator();
                }
                @Override
                protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
                    if (startOfLine) {
                        TextPosition firstProsition = textPositions.get(0);
                        writeString(String.format("[%s,%s]", firstProsition.getXDirAdj(), firstProsition.getYDirAdj()));
                        startOfLine = false;
                    }
                    super.writeString(text, textPositions);
                }
                boolean startOfLine = true;
            };
            stripper.setSortByPosition(false);
            stripper.setStartPage(1);
            stripper.setEndPage(count);
            String content = stripper.getText(pdf);