说明
pdfbox解析pdf,因是对每一个字符都有坐标标记,会根据坐标对全篇文字排序后输出。若文章中表格存在行坐标不一致,极易导致解析乱排。
解决思路
1、定位表格起始、终止X/Y坐标
2、解析表格之外的文本
3、解析表格文本
4、串联起来
关键点
如何定位表格起始、终止X/Y坐标
pdfbox区域提取
代码实例:https://download.csdn.net/download/df198912/10781210
说明
pdfbox解析pdf,因是对每一个字符都有坐标标记,会根据坐标对全篇文字排序后输出。若文章中表格存在行坐标不一致,极易导致解析乱排。
解决思路
1、定位表格起始、终止X/Y坐标
2、解析表格之外的文本
3、解析表格文本
4、串联起来
关键点
如何定位表格起始、终止X/Y坐标
pdfbox区域提取
代码实例:https://download.csdn.net/download/df198912/10781210