今天做PDF文件解析,遇到一个需求:提取文件中的图片并保存。使用的是流行的apache开源jar包pdfbox, 但还是遇到坑了,比如pdfbox版本太高或太低都不能用!!这个包竟然没有很好地做好兼容问题,有些方法在高版本说舍弃就舍弃了。暂时没有时间去研究版本间的区别。以下给我这个问题的解决方案。
pdfbox版本:1.8.13
maven传送门:
org.apache.pdfbox
pdfbox
1.8.13
代码:
package com.tbd.util;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage;
/**
* 提取PDF中的图片
* pdfbox 版本 1.8.13
* @author Charlie Wu
* 2018/05/24
*/
public class PDF2Image {
/**
* 提取