java对pdf关键字定位

最新推荐文章于 2024-05-29 00:13:10 发布

海乃百川-有容乃大

最新推荐文章于 2024-05-29 00:13:10 发布

阅读量5.9k

点赞数 1

分类专栏：架构设计编程语言文章标签： java pdf keyword

本文链接：https://blog.csdn.net/u011110982/article/details/60134367

版权

编程语言同时被 2 个专栏收录

4 篇文章 1 订阅

订阅专栏

架构设计

0 篇文章 0 订阅

订阅专栏

昨天研究一天的对pdf关键字定位，走了不少弯路，网上找的好多有瑕疵，今天有时间跟大家分享下：

以下方法是对pdf每页内容进行扫描定位出关键字的大致坐标。

import com.google.common.collect.Lists;
import com.itextpdf.text.DocumentException;
import com.itextpdf.text.pdf.AcroFields;
import com.itextpdf.text.pdf.AcroFields.FieldPosition;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.PdfStamper;
import com.itextpdf.text.pdf.parser.ImageRenderInfo;
import com.itextpdf.text.pdf.parser.PdfReaderContentParser;
import com.itextpdf.text.pdf.parser.RenderListener;
import com.itextpdf.text.pdf.parser.TextRenderInfo;   



// 定义返回页码
    private static int i = 0;
    private static com.itextpdf.awt.geom.Rectangle2D.Float boundingRectange =null;

    private static StringBuilder content;

    private static List<Object[]> arrays = Lists.newArrayList();   



private static List<Object[]> getKeyWords(String filePath, final String keyWord) {

        try {
            PdfReader pdfReader = new PdfReader(filePath);
            int pageNum = pdfReader.getNumberOfPages();
            PdfReaderContentParser pdfReaderContentParser = new PdfReaderContentParser(pdfReader);

            for (i = 1; i < pageNum; i++) {
                content = new StringBuilder();
                boundingRectange =new com.itextpdf.awt.geom.Rectangle2D.Float();
                pdfReaderContentParser.processContent(i, new RenderListener() {
                    @Override
                    public void renderText(TextRenderInfo textRenderInfo) {
                        String text = textRenderInfo.getText(); // 整页内容
                        content.append(text);
                        
                        boundingRectange= textRenderInfo.getBaseline().getBoundingRectange();
                        /*if (null != text && StringUtils.contains(content, keyWord)) {
                            float[] resu = new float[3];
                            resu[0] = boundingRectange.x;
                            resu[1] = boundingRectange.y;
                            resu[2] = i;
                            arrays.add(resu);
                        }*/
                    }

                    @Override
                    public void renderImage(ImageRenderInfo arg0) {
                        // TODO Auto-generated method stub

                    }

                    @Override
                    public void endTextBlock() {
                        // TODO Auto-generated method stub

                    }

                    @Override
                    public void beginTextBlock() {
                        // TODO Auto-generated method stub

                    }
                });
                
                if (null != content && StringUtils.contains(content, keyWord)) {
                    Object[] resu = new Object[4];
                    resu[0] = content;
                    resu[1] = boundingRectange.x;
                    resu[2] = boundingRectange.y;
                    resu[3] = i;
                    arrays.add(resu);
                }
                
                //    System.out.println("第"+i+"页，内容："+content);
            }
            

        } catch (IOException e) {
            e.printStackTrace();
        }
        return arrays;
    }

以上方法中使用到的jar包

jcifs-1.3.17.jar

海乃百川-有容乃大

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
6
评论
java对pdf关键字定位

昨天研究一天的对pdf关键字定位，走了不少弯路，网上找的好多有瑕疵，今天有时间跟大家分享下：以下方法是对pdf每页内容进行扫描定位出关键字的大致坐标。import com.google.common.collect.Lists;import com.itextpdf.text.DocumentException;import com.itextpdf.text.pdf.AcroFie...
复制链接

扫一扫