最全java代码实现对pdf文件文本和图片内容的提取，细数Java开发者的艰辛历程

最新推荐文章于 2024-06-24 09:42:16 发布

2401_84103488

最新推荐文章于 2024-06-24 09:42:16 发布

阅读量1.2k

点赞数 10

分类专栏：程序员文章标签： java 面试学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84103488/article/details/138790441

版权

程序员专栏收录该内容

236 篇文章 2 订阅

订阅专栏

总结

三个工作日收到了offer，头条面试体验还是很棒的，这次的头条面试好像每面技术都问了我算法，然后就是中间件、MySQL、Redis、Kafka、网络等等。

第一个是算法

关于算法，我觉得最好的是刷题，作死的刷的，多做多练习，加上自己的理解，还是比较容易拿下的。

而且，我貌似是将《算法刷题LeetCode中文版》、《算法的乐趣》大概都过了一遍，尤其是这本

《算法刷题LeetCode中文版》总共有15个章节：编程技巧、线性表、字符串、栈和队列、树、排序、查找、暴力枚举法、广度优先搜索、深度优先搜索、分治法、贪心法、动态规划、图、细节实现题

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

《算法的乐趣》共有23个章节：

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

第二个是Redis、MySQL、kafka（给大家看下我都有哪些复习笔记）

基本上都是面试真题解析、笔记和学习大纲图，感觉复习也就需要这些吧（个人意见）

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

第三个是网络（给大家看一本我之前得到的《JAVA核心知识整理》包括30个章节分类，这本283页的JAVA核心知识整理还是很不错的，一次性总结了30个分享的大知识点）

最新出炉，头条三面技术四面HR，看我如何一步一步攻克面试官？

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

stripper.setStartPage(1);

//设置要读取的结束页码

stripper.setEndPage(pageNumber);

// System.out.println(stripper.getText(pdd));

//生成的txt的文件路径

String docPath =path.substring(0,path.lastIndexOf(“.”))+“.txt”;

File doc = new File(docPath);

if(!doc.exists()){

doc.createNewFile();

}

//文件输出流

FileOutputStream fos = new FileOutputStream(doc);

Writer writer = new OutputStreamWriter(fos, “utf-8”);

stripper.writeText(pdd, writer);

writer.close();

fos.close();

System.out.println(“提取文本完成”);

} catch (Exception e) {

e.printStackTrace();

}

}

/**

提取图片
@return

*/

public static boolean extractImages(String path) {

boolean result = true;

try{

File fdf = new File(path);

//通过文件名加载文档

PDDocument document = Loader.loadPDF(fdf);

PDPageTree pages = document.getPages();

Iterator iter = pages.iterator();

//生成的txt的文件路径

String imagePath =path.substring(0,path.lastIndexOf(“.”));

while(iter.hasNext()){

PDPage page = iter.next();

PDResources resources =page.getResources();

resources.getXObjectNames().forEach(e->{

try {

if(resources.isImageXObject(e)){

PDImageXObject imageXObject=(PDImageXObject)resources.getXObject(e);

BufferedImage bufferedImage= imageXObject.getImage();

System.out.println(bufferedImage);

ImageIO.write(bufferedImage,“jpg”,new File(imagePath+“_”+e+“.jpg”));

}

} catch (IOException ioException) {

ioException.printStackTrace();

}

});

System.out.println(“----------------------------------------------”);

}

System.out.println(“提取图片完成”);

// document.save(fdf);

document.close();

} catch(IOException ex){

ex.printStackTrace();

return false;

}

return result;

}

}

idea控制台运行输出

提取文件和原pdf文件在同一文件夹下

原pdf内容部分展示

提取文本展示

提取图片展示

相关文章推荐

JAVA实现对PDF文件加密、解密、暴力破解密码功能https://blog.csdn.net/weixin_40986713/article/details/120350764https://blog.csdn.net/weixin_40986713/article/details/120350764

干货来袭！几行代码实现pdf添加水印和去除水印https://blog.csdn.net/weixin_40986713/article/details/120198982https://blog.csdn.net/weixin_40986713/article/details/120198982
JAVA实现PDF合并、拆分代码工具类https://blog.csdn.net/weixin_40986713/article/details/120065363
JAVA实现无损word转pdf文件完整代码教程https://blog.csdn.net/weixin_40986713/article/details/120416465 icon-default.png?t=L892 https://blog.csdn.net/weixin_40986713/article/details/120416465

写在最后

还有一份JAVA核心知识点整理（PDF）：JVM，JAVA集合，JAVA多线程并发，JAVA基础，Spring原理，微服务，Netty与RPC，网络，日志，Zookeeper，Kafka，RabbitMQ，Hbase，MongoDB，Cassandra，设计模式，负载均衡，数据库，一致性哈希，JAVA算法，数据结构，加密算法，分布式缓存，Hadoop，Spark，Storm，YARN，机器学习，云计算…

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

n7A-1715566081764)]

本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录

需要这份系统化的资料的朋友，可以点击这里获取

关注

10
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
最全java代码实现对pdf文件文本和图片内容的提取，细数Java开发者的艰辛历程

JVM，JAVA集合，JAVA多线程并发，JAVA基础，Spring原理，微服务，Netty与RPC，网络，日志，Zookeeper，Kafka，RabbitMQ，Hbase，MongoDB，Cassandra，设计模式，负载均衡，数据库，一致性哈希，JAVA算法，数据结构，加密算法，分布式缓存，Hadoop，Spark，Storm，YARN，机器学习，云计算…本文已被CODING开源项目：【一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码】收录。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。