读取pdf中的内容

/**

*使用前先备好   PDFBox-0.7.2-log4j.jar

*log4j-1.2.15.jar   两个包

*/

 

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

**
 * 将pdf中的内容复制到txt中
 * @author DanielCooger
 * <a href="
mailto:tangjunfeng52099@gmail.com">daniel</a>
 */

public class Pdf {

// 内存中存储的PDF Document
 private PDDocument document = null;
 // 是否排序
 private boolean sort = false;
 // 开始提取页数
 private int startPage = 1;
 // 结束提取页数
 private int endPage = Integer.MAX_VALUE;
 
 /**
  *根据输入的源文件路径得到pdf文件中的内容
  *file 参数为源文件pdf路径
  */
 public String readFdf(String file) throws Exception{
  // 注意参数已不是以前版本中的URL.而是File。
  document = PDDocument.load(file);
  // PDFTextStripper来提取文本
  PDFTextStripper stripper = null;
  stripper = new PDFTextStripper();
  // 设置是否排序
  stripper.setSortByPosition(sort);
  // 设置起始页
  stripper.setStartPage(startPage);
  // 设置结束页
  stripper.setEndPage(endPage);
  // 调用PDFTextStripper的getText提取pdf中的文本
  return stripper.getText(document);
 }

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值