最后编辑时间 :2015-01-0517:30
方法一:PDFBox
(一个BSD许可下的源码开放项目)是一个为开发人员读取和创建PDF文档而准备的纯Java类库。它提供如下特性:
提取文本,包括Unicode字符。和Jakarta Lucene等文本搜索引擎的整合过程十分简单。加密/解密PDF文档。从PDF和XFDF格式中导入或导出表单数据。向已有PDF文档中追加内容。将一个PDF文档切分为多个文档,覆盖PDF文档。
官网:http://pdfbox.apache.org/index.html 截止当前最新版本1.8.8
/** * PdfboxUtil.java * Create on 2015-1-5 */ package charlie.utils.pdf; import java.io.BufferedWriter; import java.io.File; import java.io.FileInputStream; import java.io.FileWriter; import java.io.InputStream; import org.apache.pdfbox.pdfparser.PDFParser; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.util.PDFTextStripper; /** * @author CharlieChen * @DateTime 2015-1-5 上午9:55:38 * @version 1.0 */ public class PdfboxUtil { /** * @param args */ public static void main(String[] args) { String pdfPath = "D:/temp/成交单-PDF格式.pdf"; String txtfilePath = "D:/temp/成交单-PDF格式-pdfbox.txt"; PdfboxUtil pdfutil = new PdfboxUtil(); try { String content = pdfutil.getTextFromPdf(pdfPath); pdfutil.toTextFile(content, txtfilePath); System.out.println( |