Apache PDFbox开发指南之PDF文档读取

最新推荐文章于 2024-02-16 13:35:22 发布

VIP文章 loongshawn

最新推荐文章于 2024-02-16 13:35:22 发布

阅读量7w

点赞数 28

分类专栏： JAVA Apache 文章标签： apache java pdf PDFbox 开源

本文链接：https://blog.csdn.net/loongshawn/article/details/51542309

版权

相关文章：

1、介绍

Apache PDFbox是一个开源的、基于Java的、支持PDF文档生成的工具库，它可以用于创建新的PDF文档，修改现有的PDF文档，还可以从PDF文档中提取所需的内容。Apache PDFBox还包含了数个命令行工具。
Apache PDFbox于2016年4月26日发布了最新的2.0.1版。

备注：本文代码均是基于2.0及以上版本编写。

Apache PDFBox主要有以下特征：
PDF读取、创建、打印、转换、验证、合并分割等特征。

1、读取PDF文本内容，样例中为读取体检报告文本内容。
2、提取PDF文档中的图片。这里仅仅实现将PDF中的图片另存为一个单独的PDF，至于需要直接输出图片文件（暂时没有实现），大家可以参考我的代码加以拓展，主要就是处理PDImageXObject对象。

pdfbox-2.0.1.jar下载地址

fontbox-2.0.1.jar下载地址

将上述两jar包添加到工程库中，如下：
这里写图片描述

创建PdfReader类，编写下述功能函数。

package com.loongshaw;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import

关注

专栏目录