Java 读取PDF 字体粗体的内容 PDFBox 2.0.7 or 2.0.25


    public static List<String> getPDFContentWithBold(String filepath) throws IOException {

        List<String> boldTexts = new ArrayList<>(); // List to store bold texts
        File file = new File(filepath);
        PDDocument document = PDDocument.load(file);
        String tarGetsRegEx = "([A-Za-z]+)\\s+(\\d+)";// The tarGets regular expression
        System.out.println("tarGetsRegEx: " + tarGetsRegEx);
        
        PDFTextStripper reader = new PDFTextStripper() {

            StringBuilder line = new StringBuilder(); // For keeping track of the current line
            float prevY = -1; // For keeping track of Y coordinate
            float prevX = -1; // For keeping track of X coordinate
            Pattern pattern = Pattern.compile(tarGetsRegEx); // The regular expression
            
            @Override
            protected void writeString(String string, List<TextPosition> textPositions) throws IOException {
                for (TextPosition text : textPositions) {
                    String baseFont = text.getFont().getName();

                    // Check if we've moved to a new line
                    if (prevY != -1 && text.getY() != prevY) {
                        String boldTextLine = line.toString().trim();
                        if (!boldTextLine.isEmpty()) {
                            Matcher matcher = pattern.matcher(boldTextLine);
                            while(matcher.find()) { // find each match in the line
                                boldTexts.add(matcher.group());
                            }
                        }
                        line.setLength(0); // Clear the line
                    }

                    // Check if we need to insert a space
                    if (prevX != -1 && text.getX() - prevX > 5f) { // Possible space, adjust the value as needed
                        line.append(' ');
                    }

                    // Detect bold text
                    if (baseFont.contains("Bold")) {
                        line.append(text.getUnicode());
                    }

                    prevY = text.getY();
                    prevX = text.getEndX();
                }
            }
        };

        reader.writeText(document, new OutputStreamWriter(System.out));
        
        return boldTexts;
    }

推荐的 正则表达式测试工具

正则表达式在线测试 | 菜鸟工具

个人公主号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值