(9)IText读取PDF

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.logging.Level;
import java.util.logging.Logger;

/**
 *
 * @author Angela
 */
public class ITextToTxt {

    /**提取文本**/
    public static void extractTXT(String file){
        try {
            PdfReader reader = new PdfReader(file);  
            int pageNum = reader.getNumberOfPages();//获得页数
            for (int i=1; i<=pageNum; i++) {// 只能从第1页开始读  
                System.out.println(PdfTextExtractor.getTextFromPage(reader, i));  
            } 
        } catch (IOException ex) {
            Logger.getLogger(ITextToTxt.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    /**
     * 提取部分页面文本
     * @param file pdf文件路径
     * @param startPage 起始页数
     * @param endPage 结束页数
     */
    public static void extractTXT(String file,int startPage,int endPage){
        try {
            PdfReader reader = new PdfReader(file);         
            for (int i=startPage; i<=endPage; i++) {  
                System.out.println(PdfTextExtractor.getTextFromPage(reader, i));  
            } 
        } catch (IOException ex) {
            Logger.getLogger(ITextToTxt.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    /**
     * 保存文本内容
     * @param file pdf文件路径
     * @param savePath 文本保存路径
     */
    public static void extractTXT(String file,String savePath){
        try {
            PdfReader reader = new PdfReader(file);  
            int pageNum = reader.getNumberOfPages();//获得页数
            //创建一个输出流
            Writer writer=new OutputStreamWriter(new FileOutputStream(savePath));
            for (int i=1; i<=pageNum; i++) {// 只能从第1页开始读  
                writer.write(PdfTextExtractor.getTextFromPage(reader, i));  
            } 
            writer.flush();
            writer.close();
        } catch (IOException ex) {
            Logger.getLogger(ITextToTxt.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    /**
     * 保存部分页面文本
     * @param file pdf文件路径
     * @param startPage 起始页数
     * @param endPage 结束页数
     * @param savePath 文本保存路径
     */
    public static void extractTXT(String file,int startPage,
            int endPage,String savePath){
        try {
            PdfReader reader = new PdfReader(file);              
            //创建一个输出流
            Writer writer=new OutputStreamWriter(new FileOutputStream(savePath));
            for (int i=startPage; i<=endPage; i++) {  
                System.out.println(PdfTextExtractor.getTextFromPage(reader, i));  
            } 
            writer.flush();
            writer.close();
        } catch (IOException ex) {
            Logger.getLogger(ITextToTxt.class.getName()).log(Level.SEVERE, null, ex);
        }
    }

    public static void main(String args[]){
        String file="F:\\pdf\\2013\\000608_阳光股份_2013年年度报告(更新后)_1.pdf";
        String savePath="E:\\result2.txt";
        long startTime=System.currentTimeMillis();
        extractTXT(file,savePath);
        long endTime=System.currentTimeMillis();
        System.out.println("读写所用时间为:"+(endTime-startTime)+"ms");
    }
}
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值