解析pdf，获得内容

最新推荐文章于 2021-09-16 15:02:22 发布

kkvveeerer

最新推荐文章于 2021-09-16 15:02:22 发布

阅读量996

点赞数

分类专栏：开发记录文章标签： string stream file

本文链接：https://blog.csdn.net/kai_wei_zhang/article/details/7974788

版权

开发记录专栏收录该内容

22 篇文章 0 订阅

订阅专栏

涉及到的主要的包：PDFTextStream-2.2.1.jar（用了里面的FileputStream对象获得pdf的stream和RegionOutputTarget对象得到pdf里面某一区域的内容）

inputFilePath是文件路径+文件名

File file = new File(this.inputFilePath);

InputStream is = new FileInputStream(file);

stream = new PDFTextStream(is, this.inputFilePath);

StringBuffer sb = new StringBuffer();
int w = 680;
int h = 1600;
for (int i = 0; i < this.stream.getPageCnt(); i++) {
try {
if (i > 0) {
w = 580;
}
RegionOutputTarget tgt1 = new RegionOutputTarget();
tgt1.addRegion(1, 1, w, h, "all");
Page p1 = this.stream.getPage(i);
p1.pipe(tgt1);
sb.append(tgt1.getRegionText("all"));

用allRows=allTxt.split("\n");把内容的每一行变成数组的一个元素，

需要定位某个字符串key的行位置用

allRows[m].toUpperCase().contains(key.toUpperCase());

需要定位某个字符串key的列位置用

allRows[row].toUpperCase().indexOf(key.tuUpperCase());

得到某个位置的面积

getAreaValue(int startRow, int endRow, int beginPos,int endPos, String allTxt)

getAreaValue的处理思路：

用for分别获取开始行到结束行

for (int i = startRow; i <= endRow && i < allRows.length; ++i)

对每一行都截取开始列到结束列的字符串

allRows[i].substring(beginPos, tag_end);

遇到问题：

1、怎么去除中文字符

	public static String pureAscii(String strTem) {
		StringBuffer sb = new StringBuffer();
		for (int i = 0; i < strTem.length(); i++) {
			String str = strTem.substring(i, i + 1);
			boolean ascii = true;
			for (int j = 0; j < str.length(); j++) {
				char ch = str.charAt(j);
				if (ch >= 127 || ch < 0)
					ascii = false;
			}
			if (ascii)
				sb.append(strTem.substring(i, i + 1));
		}
		strTem = sb.toString();
		return strTem;
	}

kkvveeerer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解析pdf，获得内容

涉及到的主要的包：PDFTextStream-2.2.1.jar（用了里面的FileputStream对象获得pdf的stream和RegionOutputTarget对象得到pdf里面某一区域的内容）inputFilePath是文件路径+文件名File file = new File(this.inputFilePath);InputStream is = new FileIn
复制链接

扫一扫