读取pdf中的内容

最新推荐文章于 2024-05-22 17:00:57 发布

玉女

最新推荐文章于 2024-05-22 17:00:57 发布

阅读量703

点赞数

分类专栏： IT技能文章标签： file exception string class 存储

本文链接：https://blog.csdn.net/tang5324110/article/details/5646742

版权

IT技能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

/**

*使用前先备好 PDFBox-0.7.2-log4j.jar

*log4j-1.2.15.jar 两个包

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

**
* 将pdf中的内容复制到txt中
* @author DanielCooger
* <a href="mailto:tangjunfeng52099@gmail.com">daniel</a>
*/

public class Pdf {

// 内存中存储的PDF Document
private PDDocument document = null;
// 是否排序
private boolean sort = false;
// 开始提取页数
private int startPage = 1;
// 结束提取页数
private int endPage = Integer.MAX_VALUE;

/**
*根据输入的源文件路径得到pdf文件中的内容
*file 参数为源文件pdf路径
*/
public String readFdf(String file) throws Exception{
  // 注意参数已不是以前版本中的URL.而是File。
  document = PDDocument.load(file);
  // PDFTextStripper来提取文本
  PDFTextStripper stripper = null;
  stripper = new PDFTextStripper();
  // 设置是否排序
  stripper.setSortByPosition(sort);
  // 设置起始页
  stripper.setStartPage(startPage);
  // 设置结束页
  stripper.setEndPage(endPage);
  // 调用PDFTextStripper的getText提取pdf中的文本
  return stripper.getText(document);
}

}

玉女

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
读取pdf中的内容

/***使用前先备好 PDFBox-0.7.2-log4j.jar*log4j-1.2.15.jar 两个包*/import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;** * 将pdf中的内容复制到txt中 * @author DanielCooger * daniel */public class Pdf {// 内存中存储的PDF Document private PDDocument docume
复制链接

扫一扫