今天给大家分享一下使用java处理pdf文件,包括提取pdf文本、提取pdf图片、pdf转图片三种操作。
主要使用到的库是apache开源的pdfbox,目前最新版本是2.0.x,网上的资料一般是1.8.x或者2.0.x的。如果是要处理pdf,推荐使用。如果是要生成pdf,推荐使用itext,有网友说pdfbox对中文支持不好,我还没尝试,只用过itext还是很棒的。
官网对pdfbox的介绍:
接下来介绍如何使用pdfbox。
首先你肯定要创建maven项目,添加pom依赖,这里一共用到四个依赖:
然后创建工具类,写方法就可以(以下只粘贴部分代码,具体内容可查看文章最后给出的分享链接)。
提取pdf中的文本
提取pdf中的图片
pdf转图片
将每一页pdf转换成一张图片,这个很实用。
为了页面更美观,所以以上代码都以图片形式展示,如果需要查看源文件,可以去github地址:https://github.com/zhouyc/sharecode/blob/master/com/zyc/util/PdfTest.java
下次再给大家分享如何使用itext生成pdf文件。