PDFBOX1.8.13和Tika1.21的可能产生的冲突发生原因以及结果

最近一直在搞全文检索方面的代码,比如识别文件中的文字等功能。
然后,原本已经做出来了,不过,在多次实验编译文件的时候发现了一定问题。

在这里插入图片描述

以上就是出现的问题,那么,出现问题吗,就要排查。 刚开始我没有想到依赖的问题。 而是感觉是代码出现bug,所以专门又写了一个demo ,只放入tika 这个依赖,然后相同的文件相同的代码,跑一遍

结果是,这个demo的编写十分成功,不会出现以上这种异常情况。那么 我就考虑到了依赖的问题,但是,也不知道是那个,于是我就都注释掉了,然后看那个依赖出现问题 然后发现是pdf1.8.13 注释掉以后,我的tika就可以正常识别了!! 于是,判断成功了是依赖问题。

不过,我的其他文件识别其实还用到了这个pdfbox1.8.13中一部分图片识别的方法 那么我肯定是想找到兼容的方法啊。 于是,就去tika-parse包下看,有关于tika的依赖到底有什么。 在这里插入图片描述

那么,有关pdf的依赖只有这三个,也看到了最低的条件是1.8.16 最高的是2.0.15 也就是冲突原因是在tika里, 那么我首先想到的是 找一个tika中jar包版本和pdfbox1.8.13相同,或者不冲突的依赖放入到我们的项目中,不过试了大约六七版,没有一个有关于2.0.0以下的版本。那我就更激动了,那我找到不到tika版本兼容pdfbox1.8.13的 那我就找一个 pdfbox版本高的来兼容tika被。
于是 就产生了更重要的问题。

因为pdfbox在2.0.0版本以后的内部代码产生了大量的代码替换以及方法名替换,甚至更新了方法的作用。那么我们的demo就更要重新编写了,所以也没找到更好的兼容方式。 唯一的解决方式就是。我根据pdfbox2.1.5版本的,依赖重新编写有关与代码的图片解析逻辑 代码的话。 应该过一段时间会上到git上。

文字提取,图片提取,图片添加水印,等demo 都放在这里,还望大佬指点
git 地址 :https://gitee.com/tyf04135137/image-character-recognition.git

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值