java pdfbox内存溢出,java - 使用PDFBox解析PDF文件(尤其是表格) - 堆栈内存溢出

===============>>#1 票数:20

我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):

+----------------------------------------------------------------+

| AIH | Value | Complexity | Financing |

| | | Medium | High | Not applicable | MAC/Other | FAE |

+----------------------------------------------------------------+

| xyz | 12.43 | 12.34 | | | 12.34 | |

+----------------------------------------------------------------+

| abc | 1.56 | | 1.56 | | | 1.56|

+----------------------------------------------------------------+

然后,我使用PDFBox:

PDDocument document = PDDocument.load(pathToFile);

PDFTextStripper s = new PDFTextStripper();

String content = s.getText(document);

这两行数据将像这样提取:

xyz 12.43 12.4312.43

abc 1.56 1.561.56

最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。

对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。

===============>>#2 票数:15

我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):

+----------------------------------------------------------------+

| AIH | Value | Complexity | Financing |

| | | Medium | High | Not applicable | MAC/Other | FAE |

+----------------------------------------------------------------+

| xyz | 12.43 | 12.34 | | | 12.34 | |

+----------------------------------------------------------------+

| abc | 1.56 | | 1.56 | | | 1.56|

+----------------------------------------------------------------+

然后,我使用PDFBox:

PDDocument document = PDDocument.load(pathToFile);

PDFTextStripper s = new PDFTextStripper();

String content = s.getText(document);

这两行数据将像这样提取:

xyz 12.43 12.4312.43

abc 1.56 1.561.56

最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。

对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。

===============>>#3 票数:13

我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):

+----------------------------------------------------------------+

| AIH | Value | Complexity | Financing |

| | | Medium | High | Not applicable | MAC/Other | FAE |

+----------------------------------------------------------------+

| xyz | 12.43 | 12.34 | | | 12.34 | |

+----------------------------------------------------------------+

| abc | 1.56 | | 1.56 | | | 1.56|

+----------------------------------------------------------------+

然后,我使用PDFBox:

PDDocument document = PDDocument.load(pathToFile);

PDFTextStripper s = new PDFTextStripper();

String content = s.getText(document);

这两行数据将像这样提取:

xyz 12.43 12.4312.43

abc 1.56 1.561.56

最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。

对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。

===============>>#4 票数:11

我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):

+----------------------------------------------------------------+

| AIH | Value | Complexity | Financing |

| | | Medium | High | Not applicable | MAC/Other | FAE |

+----------------------------------------------------------------+

| xyz | 12.43 | 12.34 | | | 12.34 | |

+----------------------------------------------------------------+

| abc | 1.56 | | 1.56 | | | 1.56|

+----------------------------------------------------------------+

然后,我使用PDFBox:

PDDocument document = PDDocument.load(pathToFile);

PDFTextStripper s = new PDFTextStripper();

String content = s.getText(document);

这两行数据将像这样提取:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值