java有很多可以操作pdf的框架,pdfbox和itext就是其中的两种
pdfbox有如下作用
提取文本,包括Unicode字符。和Jakarta Lucene等文本搜索引擎的整合过程十分简单。加密/解密PDF文档。
从PDF和XFDF格式中导入或导出表单数据。
向已有PDF文档中追加内容。
将一个PDF文档切分为多个文档。
覆盖PDF文档。
下面是一个使用pdfbox的测试程序
public class PdfBoxTest {
public void getText(String file) throws Exception{
//是否排序
boolean sort = false;
//pdf文件名
String pdfFile = file;
//输入文本文件名称
String textFile = null;
//编码方式
String encoding = "UTF-8";
//开始提取页数
int startPage = 1;
//结束提取页数
int endPage = Integer.MAX_VALUE;
//文件输入流,输入文本文件
Writer output = null;
//内存中存储的PDF Document
PDDocument document = null;
try{
try{
//首先当作一个URL来加载文件,如果得到异常再从本地系统装载文件
URL