lucene入门-解析pdf(使用pdfbox解析英文PDF)

下载pdfbox

http://incubator.apache.org/pdfbox/

 下载相关的jar

http://commons.apache.org/downloads/download_logging.cgi

引入external下的所有包

 

 英语PDF:

package extract;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;


import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.*;

public class ExtractorPDF {
   
 public static String getText(String file){
  String s="";
  String pdffile=file;
  PDDocument pdfdoc=null;
  try {
   pdfdoc=PDDocument.load(pdffile);
   PDFTextStripper stripper=new PDFTextStripper();
   s=stripper.getText(pdfdoc);   
   
  } catch (IOException e) {   
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
  finally{
   try {
      if (pdfdoc!=null){  
     pdfdoc.close();
    }
   }catch (IOException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
   }       
  } 
  return s;     
    }
 public static void toTextFile(String doc,String filename) throws Exception{
  String pdffile=doc;
  PDDocument pdfdoc=PDDocument.load(doc);
  try {
   pdfdoc=PDDocument.load(pdffile);
   PDFTextStripper stripper=new PDFTextStripper();
   PrintWriter pw=new PrintWriter(new FileWriter(filename));
   stripper.writeText(pdfdoc, pw);
   
  } catch (IOException e) {   
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
  finally{
   try {
      if (pdfdoc!=null){  
     pdfdoc.close();
    }
   }catch (IOException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
   }       
  } 
  
 }
 /**
  * @param args
  */
 public static void main(String[] args) {
  // TODO Auto-generated method stub
  try {
   String sc=getText("D:/workspace/testsearch2/htmls/xxxx.pdf");   
   System.out.print(sc);
   toTextFile("D:/workspace/testsearch2/htmls/xxxx.pdf","D:/workspace/testsearch2/htmls/xxxx.txt");
  } catch (Exception e) {
   // TODO Auto-generated catch block
   e.printStackTrace();
  }
  
 }

}
先读取PDF文件内容输出

然后再将该PDF文件转换成TXT

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值