Java使用PDFBox API实现对PDF文档进行关键字检索

        最近项目上需要获得pdf文档中某一个字/词的坐标,发现网上的普遍都是基于itext实现的,不过实际使用下来发现itext的文字提取比较乱,有的时候提取出一个字,有的时候提取出一段话,不太方便,于是在解决问题的过程中发现了基于PDFBox的文字提取API,稍加整合,实现了关键字检索基本实现0偏移,但是感觉效率上不是很优美,但又说不上哪里可以优化,下面贴代码,希望能得到大家的完善.

依赖

 

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.ArrayList;
import java.util.List;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;

public class BoxKeyPosition extends PDFTextStripper {

	private char[] key;
	private byte[] src;
	private List<float[]> list = new ArrayList<float[]>();
	private List<float[]> pagelist = new ArrayList<float[]>();

	public BoxKeyPosition(String keyWords, byte[] src) throws IOException {
		super();
		super.setSortByPosition(true);
		this.src = src;

		char[] key = new char[keyWords.length()];
		for (int i = 0; i < keyWords.length(); i++) {
			key[i] = keyWords.charAt(i);
		}
		this.key = key;
	}

	public char[] getKey() {
		return key;
	}

	public void setKey(char[] key) {
		this.key = key;
	}

	public byte[] getSrc() {
		return src;
	}

	public void setSrc(byte[] src) {
		this.src = src;
	}

	public List<float[]> getPosition() throws IOException {
		try {
			document = PDDocument.load(src);
			int pages = document.getNumberOfPages();
			
			for (int i = 1; i <= pages; i++) {
				pagelist.clear();
				super.setSortByPosition(true);
				super.setStartPage(i);
				super.setEndPage(i);
				Writer dummy = new OutputStreamWriter(new ByteArrayOutputStream());
				super.writeText(document, dummy);
				for (float[] li : pagelist) {
					li[2] = i;
				}
				list.addAll(pagelist);
			}
			return list;

		} finally {
			if (document != null) {
				document.close();
			}
		}

	}

	@Override
	protected void writeString(String string, List<TextPosition> textPositions) throws IOException {
		for (int i = 0; i < textPositions.size(); i++) {

			String str = textPositions.get(i).getUnicode();
			if (str.equals(key[0] + "")) {
				int count = 0;
				for (int j = 1; j < key.length; j++) {
					String s = "";
					try {
						s = textPositions.get(i + j).getUnicode();
					} catch (Exception e) {
						s = "";
					}
					if (s.equals(key[j] + "")) {
						count++;
					}

				}
				if (count == key.length - 1) {
					float[] idx = new float[3];
					idx[0] = textPositions.get(i).getX()+key.length*textPositions.get(i).getWidth()/2;
					idx[1] = textPositions.get(i).getY()-textPositions.get(i).getHeight();
				//	idx[3] = textPositions.get(i).getUnicode();
					pagelist.add(idx);
				}
			}

		}
	}
}

 

 

 

 

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丨LucKy丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值