JAVA实现PDF文件读取、处理研究-开源PDFBox实现

实现代码如下:

import java.io.*;


import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;


public class PDFReader {


public static String file_path = "E:\\test\\test-1.1.0-手册.pdf";


// 获取PDF内纯文本信息

public String getTextFromPdf(String filename) throws Exception {

FileInputStream instream = new FileInputStream(filename); // 根据指定文件创建输入流

PDFParser parser = new PDFParser(instream); // 创建PDF解析器

parser.parse(); // 执行PDF解析过程


PDDocument pdfdocument = parser.getPDDocument(); // 获取解析器的PDF文档对象

PDFTextStripper pdfstripper = new PDFTextStripper(); // 生成PDF文档内容剥离器

String contenttxt = pdfstripper.getText(pdfdocument); // 利用剥离器获取文档


System.out.println("文件长度: " + contenttxt.length() + "\n");

return contenttxt;


}


public static void main(String args[]) {

PDFReader pdfbox = new PDFReader(); // 生成PDFBoxHello对象

try {

// 获取文档纯文本内容

String doctext = pdfbox.getTextFromPdf(file_path);

System.out.println("文件内容: ");

System.out.println(doctext);

System.out.println("文件结束.");

} catch (Exception e) {

e.printStackTrace();

}

}

}

 

imports:

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;

 

需要JAR文件:

pdfbox-1.7.1.jar、pdfbox-app-1.7.1.jar、fontbox-1.7.1.jar、jempbox-1.7.1.jar、commons-logging-1.1.1.jar等


下载链接:

http://pdfbox.apache.org/download.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值