【Java开发-Pdfbox】Pdfbox操作Pdf

功能需求

在PDF文件上的指定位置上,添加自定义内容,实现效果如下:
效果图
考虑到pdf存在多页,且每一页都有可能存在这样需要补充文字内容的地方,且补充的内容都一样,相对比较简单,所以考虑使用每页都查询的方式补充内容
分析需求如下:
1)多个不同关键字(关键字:批文文号、证件编号)进行批量定位,计算补充内容位置的坐标;
2)重复的关键字在不同页上,都要在指定位置添加自定义内容;
3)文字可以指定字体、大小、颜色;
4)除了增加指定内容,不能修改pdf其他内容;

实现设计思路

1.通过关键字方式确认关键字页码、坐标(以pdf每页左下角为坐标原点)等信息;
2.以关键字的坐标为基础,采用向右偏移,来确认补充内容的坐标;
3.将修改后的内容保存成新的文件
注:这里讲一个选用pdfbox的原因,一开始我选用的是iText,但是发现读取pdf内容都是无效的字符,为了节省开发时间,我并没有选择深入研究,经过测试使用pdfbox可以读取pdf中的中文字符。

引入工具包

		<dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.30</version>
        </dependency>
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>fontbox</artifactId>
            <version>2.0.30</version>
        </dependency>

开发过程问题

问题一:关键字可以批量,考虑到性能,所以我们检索文本最好只检索一次,不进行重复检索

解决:使用HashSet集合,将多个关键字放入集合,文字检索时配合集合完成关键字检索;自建PageKeyWords对象,检索符合要求,就返回该对象,最后可以得到pdf中所有符合要求的关键字坐标、页码等信息,对象属性包含关键字页码(page)、关键字(keyword)、关键字坐标(textPositions)

问题二:增加指定内容后,原有Pdf内容被覆盖

解决:初次测试发现原有页面的内容会被替换,经过研究源码发现是PDPageContentStream构造函数的默认设置导致,默认使用PDPageContentStream.AppendMode.OVERWRITE创建,使用PDPageContentStream.AppendMode.APPEND进行创建可解决问题

问题三:增加的指定内容字体与pdf原有内容不一致,且中文系统出现报错

解决:更换字体,引入新的字体文件(注意引入路径,我是在resources目录下新建font文件夹),我的pdf是宋体,所以引入宋体字体文件(simsun.ttc),如果是ttc文件可以直接去windows系统里拷贝,在C:\Windows\Fonts目录下,ttf文件可能需要自行去网上查找下载

源码

package com.wuxx.demo.utils;

import cn.hutool.core.io.resource.ClassPathResource;
import org.apache.fontbox.ttf.TrueTypeCollection;
import org.apache.fontbox.ttf.TrueTypeFont;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.*;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

import java.awt.*;
import java.io.*;
import java.util.*;
import java.util.List;

/**
 * @ClassName PdfHelper
 * @Description Pdf帮助类
 * @Author wuxx
 * @Date 2024/3/7 10:15
 * @Version 1.0
 */
public class PdfHelper {

    public static Map<String, TrueTypeFont> tccFontMaps = new HashMap<>();

    static {
        //静态初始化默认字体SimSun【宋体】 key = SimSun
        try {
            TrueTypeCollection ttc = new TrueTypeCollection(new ClassPathResource("font/simsun.ttc").getStream());
            tccFontMaps.put("SimSun", ttc.getFontByName("SimSun"));
        } catch (IOException e) {
            throw new RuntimeException("系统默认【宋体】字体加载失败,请检查字体文件");
        }
    }

    public static void main(String[] args) throws IOException {
    	//输入文件
        String pdfPath = "F:\\test\\inputPdf.pdf";
        //输入文件
        String saveFilePath = "F:\\test\\outPdf.pdf";
        Map<String, String> keyWords = new HashMap<>();
        //数据增加格式{关键字:增加内容}
        keyWords.put("批文文号", "批文文号【01010202】");
        keyWords.put("证件编号", "证件编号【AA01202023】");
        addTextByDefault(pdfPath, saveFilePath, keyWords);
    }


    /**
     * @Description 获取关键字所在PDF坐标
     * @param document 文档对象
     * @param keyWords 关键词Set<String>
     * @return List<float[]>  [坐标组<x,y>]
     */
    public static List<PageKeyWords> getKeyWords(PDDocument document, Set<String> keyWords) throws IOException {
        List<PageKeyWords> result = new ArrayList<>();
        PDFTextStripper stripper = new PDFTextStripper(){
            int index = 0,flag = 0;
            @Override
            protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
                if(keyWords.contains(text)){
                    flag++;
                    //选取左下角为坐标原点
//                    float x = textPositions.get(index).getEndX();
                    float xMax = textPositions.get(textPositions.size()-1).getEndX();
                    float y = textPositions.get(index).getEndY();
                    System.out.println(text+":"+xMax+","+y);
                    //获取关键字所在页码
                    int page = super.getCurrentPageNo();
                    PageKeyWords pageKeyWords = new PageKeyWords(text,page,new float[]{xMax, y});
                    result.add(pageKeyWords);
                    if(flag == 2){
                        index ++;
                        flag = 0;
                    }
                }
                super.writeString(text,textPositions);
            }
        };
        stripper.setSortByPosition(true);
        stripper.getText(document);
        return result;
    }

    public static List<PageKeyWords> getKeyWords(PDDocument document, String keyWord) throws IOException {
        Set<String> keyWords = new HashSet<>();
        keyWords.add(keyWord);
        return getKeyWords(document,keyWords);
    }



    /**
     *  在Pdf指定位置添加指定内容
     * @param document
     * @param pdPage
     * @return PDPageContentStream
     * @throws IOException
     */
    public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
        PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.OVERWRITE,false,false);
        //设置字体和文字大小
        contentStream.setFont(getPDFont(document), 16.8f);
        //设置文字颜色
        contentStream.setNonStrokingColor(Color.BLACK);
        //指定位置设置文字
        contentStream.beginText();
        //偏移0.9
        float offset = 0.9f * 100;
        //此坐标为从下往上
        contentStream.newLineAtOffset(x+offset, y);
        //中文会抛出异常
        contentStream.showText(content);
        contentStream.endText();
        //关闭页面内容
        contentStream.close();
        return contentStream;
    }

    /**
     * 根据关键字,在PDF中添加文本
     * @param inputPath 输入Pdf路径
     * @param outPath 输出pdf路径
     * @param text 增加的文本{keyword:content} 例如{"批文文号":"11111"}
     */
    public static void addTextByDefault(String inputPath ,String outPath ,Map<String,String> text) throws IOException {
        PDDocument document = PDDocument.load(new File(inputPath));
        Set<String> keywords = text.keySet();
        List<PageKeyWords> pageKeyWordsList = getKeyWords(document, keywords);
        if(null != pageKeyWordsList && !pageKeyWordsList.isEmpty()){
            for (PageKeyWords p:pageKeyWordsList) {
//                addText(document, document.getPages().get(p.getPage() - 1), text.get(p.getKeyword()), p.getTextPositions()[0], p.getTextPositions()[1]);
                addTextByDefault(document,document.getPages().get(p.getPage()-1)
                        ,text.get(p.getKeyword()),p.getTextPositions()[0],p.getTextPositions()[1]);
            }
        }
        document.save(outPath);
        document.close();
    }


    public static PDPageContentStream addTextByDefault(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
        return addText(document,pdPage,content,getPDFont(document),Color.BLACK,16.8f,x,y,0.9f);
    }

    /**
     * 在Pdf指定位置添加指定内容
     * @param document 文档对象
     * @param pdPage  文档页面
     * @param content 添加内容
     * @param pdFont 字体
     * @param color  字体颜色
     * @param fontSize 字体大小
     * @param x 添加x坐标,左下角为坐标原点
     * @param y 添加y坐标,左下角为坐标原点
     * @param offset 便宜距离
     * @return PDPageContentStream
     * @throws IOException
     */
    public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,PDFont pdFont, Color color,float fontSize,float x ,float y ,Float offset) throws IOException {
        PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.APPEND,false,false);
        //设置字体和文字大小
        contentStream.setFont(pdFont,fontSize);
        //设置文字颜色
        contentStream.setNonStrokingColor(color);
        //指定位置设置文字
        contentStream.beginText();
        //偏移0.9
        if(null != offset){
            x = (offset * 100) + x;
        }
        //此坐标为从下往上
        contentStream.newLineAtOffset(x, y);
        //中文会抛出异常
        contentStream.showText(content);
        contentStream.endText();
        //关闭页面内容
        contentStream.close();
        return contentStream;
    }

    public static PDFont getPDFont(PDDocument document,String key) throws IOException {
        return PDType0Font.load(document, tccFontMaps.get(key), true);
    }

    public static PDFont getPDFont(PDDocument document) throws IOException {
        return getPDFont(document,"SimSun");
    }

}

package com.wuxx.demo.utils;

public class PageKeyWords {
    /**
     * 关键字
     */
    private String keyword;
    /**
     * 关键字页码
     */
    private int page;
    /**
     * 关键字坐标[x,y]
     */
    private float[] textPositions;

    public PageKeyWords() {
    }

    public PageKeyWords(String keyword, int page, float[] textPositions) {
        this.keyword = keyword;
        this.page = page;
        this.textPositions = textPositions;
    }

    public String getKeyword() {
        return keyword;
    }

    public void setKeyword(String keyword) {
        this.keyword = keyword;
    }

    public int getPage() {
        return page;
    }

    public void setPage(int page) {
        this.page = page;
    }

    public float[] getTextPositions() {
        return textPositions;
    }

    public void setTextPositions(float[] textPositions) {
        this.textPositions = textPositions;
    }
}

使用运行结果

设置main函数中的输入和输入文件、关键字与要增加的内容,执行函数,得到效果如下:
在这里插入图片描述
我这里测试的pdf文件中包含此关键字的一共有4处,且4处都增加内容成功,达到功能需求。

结尾

以上是此次功能开发过程的一个记录,有用的开发过程,我都会收录到我的开发专题里,欢迎大家互相学习指正,有好的方式或者疑问欢迎在评论区沟通交流,感谢!

  • 18
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

筱星_wu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值