功能需求
在PDF文件上的指定位置上,添加自定义内容,实现效果如下:
考虑到pdf存在多页,且每一页都有可能存在这样需要补充文字内容的地方,且补充的内容都一样,相对比较简单,所以考虑使用每页都查询的方式补充内容,
分析需求如下:
1)多个不同关键字(关键字:批文文号、证件编号)进行批量定位,计算补充内容位置的坐标;
2)重复的关键字在不同页上,都要在指定位置添加自定义内容;
3)文字可以指定字体、大小、颜色;
4)除了增加指定内容,不能修改pdf其他内容;
实现设计思路
1.通过关键字方式确认关键字页码、坐标(以pdf每页左下角为坐标原点)等信息;
2.以关键字的坐标为基础,采用向右偏移,来确认补充内容的坐标;
3.将修改后的内容保存成新的文件
注:这里讲一个选用pdfbox的原因,一开始我选用的是iText,但是发现读取pdf内容都是无效的字符,为了节省开发时间,我并没有选择深入研究,经过测试使用pdfbox可以读取pdf中的中文字符。
引入工具包
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.30</version>
</dependency>
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>fontbox</artifactId>
<version>2.0.30</version>
</dependency>
开发过程问题
问题一:关键字可以批量,考虑到性能,所以我们检索文本最好只检索一次,不进行重复检索
解决:使用HashSet集合,将多个关键字放入集合,文字检索时配合集合完成关键字检索;自建PageKeyWords对象,检索符合要求,就返回该对象,最后可以得到pdf中所有符合要求的关键字坐标、页码等信息,对象属性包含关键字页码(page)、关键字(keyword)、关键字坐标(textPositions)
问题二:增加指定内容后,原有Pdf内容被覆盖
解决:初次测试发现原有页面的内容会被替换,经过研究源码发现是PDPageContentStream构造函数的默认设置导致,默认使用PDPageContentStream.AppendMode.OVERWRITE创建,使用PDPageContentStream.AppendMode.APPEND进行创建可解决问题
问题三:增加的指定内容字体与pdf原有内容不一致,且中文系统出现报错
解决:更换字体,引入新的字体文件(注意引入路径,我是在resources目录下新建font文件夹),我的pdf是宋体,所以引入宋体字体文件(simsun.ttc),如果是ttc文件可以直接去windows系统里拷贝,在C:\Windows\Fonts目录下,ttf文件可能需要自行去网上查找下载
源码
package com.wuxx.demo.utils;
import cn.hutool.core.io.resource.ClassPathResource;
import org.apache.fontbox.ttf.TrueTypeCollection;
import org.apache.fontbox.ttf.TrueTypeFont;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.*;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import java.awt.*;
import java.io.*;
import java.util.*;
import java.util.List;
/**
* @ClassName PdfHelper
* @Description Pdf帮助类
* @Author wuxx
* @Date 2024/3/7 10:15
* @Version 1.0
*/
public class PdfHelper {
public static Map<String, TrueTypeFont> tccFontMaps = new HashMap<>();
static {
//静态初始化默认字体SimSun【宋体】 key = SimSun
try {
TrueTypeCollection ttc = new TrueTypeCollection(new ClassPathResource("font/simsun.ttc").getStream());
tccFontMaps.put("SimSun", ttc.getFontByName("SimSun"));
} catch (IOException e) {
throw new RuntimeException("系统默认【宋体】字体加载失败,请检查字体文件");
}
}
public static void main(String[] args) throws IOException {
//输入文件
String pdfPath = "F:\\test\\inputPdf.pdf";
//输入文件
String saveFilePath = "F:\\test\\outPdf.pdf";
Map<String, String> keyWords = new HashMap<>();
//数据增加格式{关键字:增加内容}
keyWords.put("批文文号", "批文文号【01010202】");
keyWords.put("证件编号", "证件编号【AA01202023】");
addTextByDefault(pdfPath, saveFilePath, keyWords);
}
/**
* @Description 获取关键字所在PDF坐标
* @param document 文档对象
* @param keyWords 关键词Set<String>
* @return List<float[]> [坐标组<x,y>]
*/
public static List<PageKeyWords> getKeyWords(PDDocument document, Set<String> keyWords) throws IOException {
List<PageKeyWords> result = new ArrayList<>();
PDFTextStripper stripper = new PDFTextStripper(){
int index = 0,flag = 0;
@Override
protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
if(keyWords.contains(text)){
flag++;
//选取左下角为坐标原点
// float x = textPositions.get(index).getEndX();
float xMax = textPositions.get(textPositions.size()-1).getEndX();
float y = textPositions.get(index).getEndY();
System.out.println(text+":"+xMax+","+y);
//获取关键字所在页码
int page = super.getCurrentPageNo();
PageKeyWords pageKeyWords = new PageKeyWords(text,page,new float[]{xMax, y});
result.add(pageKeyWords);
if(flag == 2){
index ++;
flag = 0;
}
}
super.writeString(text,textPositions);
}
};
stripper.setSortByPosition(true);
stripper.getText(document);
return result;
}
public static List<PageKeyWords> getKeyWords(PDDocument document, String keyWord) throws IOException {
Set<String> keyWords = new HashSet<>();
keyWords.add(keyWord);
return getKeyWords(document,keyWords);
}
/**
* 在Pdf指定位置添加指定内容
* @param document
* @param pdPage
* @return PDPageContentStream
* @throws IOException
*/
public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.OVERWRITE,false,false);
//设置字体和文字大小
contentStream.setFont(getPDFont(document), 16.8f);
//设置文字颜色
contentStream.setNonStrokingColor(Color.BLACK);
//指定位置设置文字
contentStream.beginText();
//偏移0.9
float offset = 0.9f * 100;
//此坐标为从下往上
contentStream.newLineAtOffset(x+offset, y);
//中文会抛出异常
contentStream.showText(content);
contentStream.endText();
//关闭页面内容
contentStream.close();
return contentStream;
}
/**
* 根据关键字,在PDF中添加文本
* @param inputPath 输入Pdf路径
* @param outPath 输出pdf路径
* @param text 增加的文本{keyword:content} 例如{"批文文号":"11111"}
*/
public static void addTextByDefault(String inputPath ,String outPath ,Map<String,String> text) throws IOException {
PDDocument document = PDDocument.load(new File(inputPath));
Set<String> keywords = text.keySet();
List<PageKeyWords> pageKeyWordsList = getKeyWords(document, keywords);
if(null != pageKeyWordsList && !pageKeyWordsList.isEmpty()){
for (PageKeyWords p:pageKeyWordsList) {
// addText(document, document.getPages().get(p.getPage() - 1), text.get(p.getKeyword()), p.getTextPositions()[0], p.getTextPositions()[1]);
addTextByDefault(document,document.getPages().get(p.getPage()-1)
,text.get(p.getKeyword()),p.getTextPositions()[0],p.getTextPositions()[1]);
}
}
document.save(outPath);
document.close();
}
public static PDPageContentStream addTextByDefault(PDDocument document ,PDPage pdPage,String content ,float x ,float y) throws IOException {
return addText(document,pdPage,content,getPDFont(document),Color.BLACK,16.8f,x,y,0.9f);
}
/**
* 在Pdf指定位置添加指定内容
* @param document 文档对象
* @param pdPage 文档页面
* @param content 添加内容
* @param pdFont 字体
* @param color 字体颜色
* @param fontSize 字体大小
* @param x 添加x坐标,左下角为坐标原点
* @param y 添加y坐标,左下角为坐标原点
* @param offset 便宜距离
* @return PDPageContentStream
* @throws IOException
*/
public static PDPageContentStream addText(PDDocument document ,PDPage pdPage,String content ,PDFont pdFont, Color color,float fontSize,float x ,float y ,Float offset) throws IOException {
PDPageContentStream contentStream = new PDPageContentStream(document, pdPage, PDPageContentStream.AppendMode.APPEND,false,false);
//设置字体和文字大小
contentStream.setFont(pdFont,fontSize);
//设置文字颜色
contentStream.setNonStrokingColor(color);
//指定位置设置文字
contentStream.beginText();
//偏移0.9
if(null != offset){
x = (offset * 100) + x;
}
//此坐标为从下往上
contentStream.newLineAtOffset(x, y);
//中文会抛出异常
contentStream.showText(content);
contentStream.endText();
//关闭页面内容
contentStream.close();
return contentStream;
}
public static PDFont getPDFont(PDDocument document,String key) throws IOException {
return PDType0Font.load(document, tccFontMaps.get(key), true);
}
public static PDFont getPDFont(PDDocument document) throws IOException {
return getPDFont(document,"SimSun");
}
}
package com.wuxx.demo.utils;
public class PageKeyWords {
/**
* 关键字
*/
private String keyword;
/**
* 关键字页码
*/
private int page;
/**
* 关键字坐标[x,y]
*/
private float[] textPositions;
public PageKeyWords() {
}
public PageKeyWords(String keyword, int page, float[] textPositions) {
this.keyword = keyword;
this.page = page;
this.textPositions = textPositions;
}
public String getKeyword() {
return keyword;
}
public void setKeyword(String keyword) {
this.keyword = keyword;
}
public int getPage() {
return page;
}
public void setPage(int page) {
this.page = page;
}
public float[] getTextPositions() {
return textPositions;
}
public void setTextPositions(float[] textPositions) {
this.textPositions = textPositions;
}
}
使用运行结果
设置main函数中的输入和输入文件、关键字与要增加的内容,执行函数,得到效果如下:
我这里测试的pdf文件中包含此关键字的一共有4处,且4处都增加内容成功,达到功能需求。
结尾
以上是此次功能开发过程的一个记录,有用的开发过程,我都会收录到我的开发专题里,欢迎大家互相学习指正,有好的方式或者疑问欢迎在评论区沟通交流,感谢!