近期做关于识别PDF的项目,里面涉及到提取PDF中的图片,并识别图片的分辨率,对较小分辨率的图片,再生成新的PDF的时候舍弃。
对于提取PDF中的图片信息可以使用PDFBox库,很简单也很灵活(当然也存在bug,我在提取某个PDF文件中图片的时候,发现有一些图片在原文件中根本不存在,还希望来个大神解答一下。。。),废话少说,直接附上代码供大家参考:
InputStream input = null;
File pdfFile = new File( Global.readPath );
PDDocument document = null;
try{
input = new FileInputStream( pdfFile );
//加载 pdf 文档
document = PDDocument.load( input );
int count = 0;
for( int i = 0; i < pages.size() ; i++ )
{
PDPage page = pages.get(i);
if( null != page )
{