Itext 读取pdf内容

7 篇文章 0 订阅

引入jar

     <dependency>
          <groupId>com.itextpdf</groupId>
          <artifactId>itextpdf</artifactId>
          <version>5.5.13</version>
      </dependency>
      <!-- https://mvnrepository.com/artifact/com.itextpdf/itext-asian -->
      <dependency>
          <groupId>com.itextpdf</groupId>
          <artifactId>itext-asian</artifactId>
          <version>5.2.0</version>
      </dependency>

工具类:

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

import java.io.FileOutputStream;
import java.io.IOException;
import java.io.OutputStreamWriter;
import java.io.Writer;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
import java.util.logging.Level;
import java.util.logging.Logger;

/**
 * @author 
 * */
public class PdfUtils {


  /**
   * 按行提取文本
   * @param file
   * @return List<String>
   */
  public static List<String> extractTXTbyLine(String file) {
    List<String> listArr = new ArrayList<String>();
    try {
      PdfReader reader = new PdfReader(file);
      int pageNum = reader.getNumberOfPages(); // 获得页数
      for (int i = 1; i <= pageNum; i++) { // 只能从第1页开始读
        String textFromPageContent = PdfTextExtractor.getTextFromPage(reader, i);
        String[] splitArray = textFromPageContent.split("\n");
        if (splitArray.length > 0) {
          listArr.addAll(Arrays.asList(splitArray));
        }
      }
    } catch (IOException ex) {
      Logger.getLogger(PdfUtils.class.getName()).log(Level.SEVERE, null, ex);
    }
    return listArr;
  }


  public static void main(String args[]) {
    String file = "F:\\文档\\test.pdf";
    long startTime = System.currentTimeMillis();
    List<String> strings = extractTXTbyLine(file);
    for (String s : strings) {
      System.out.println(s);
    }
    long endTime = System.currentTimeMillis();
    System.out.println("读写所用时间为:" + (endTime - startTime) + "ms");
  }
}

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_37749055

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值