===============>>#1 票数:20
我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):
+----------------------------------------------------------------+
| AIH | Value | Complexity | Financing |
| | | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34 | | | 12.34 | |
+----------------------------------------------------------------+
| abc | 1.56 | | 1.56 | | | 1.56|
+----------------------------------------------------------------+
然后,我使用PDFBox:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
这两行数据将像这样提取:
xyz 12.43 12.4312.43
abc 1.56 1.561.56
最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。
对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。
===============>>#2 票数:15
我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):
+----------------------------------------------------------------+
| AIH | Value | Complexity | Financing |
| | | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34 | | | 12.34 | |
+----------------------------------------------------------------+
| abc | 1.56 | | 1.56 | | | 1.56|
+----------------------------------------------------------------+
然后,我使用PDFBox:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
这两行数据将像这样提取:
xyz 12.43 12.4312.43
abc 1.56 1.561.56
最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。
对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。
===============>>#3 票数:13
我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):
+----------------------------------------------------------------+
| AIH | Value | Complexity | Financing |
| | | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34 | | | 12.34 | |
+----------------------------------------------------------------+
| abc | 1.56 | | 1.56 | | | 1.56|
+----------------------------------------------------------------+
然后,我使用PDFBox:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
这两行数据将像这样提取:
xyz 12.43 12.4312.43
abc 1.56 1.561.56
最后两个数字之间没有空格,但这不是最大的问题。 问题是我不知道最后两个数字是什么:中,高,不适用? MAC /其他,FAE? 我没有数字和它们的列之间的关系。
对我而言,不需要使用PDFBox库,因此使用另一个库的解决方案就可以了。 我想要的是能够解析该文件并知道每个解析后的数字的含义。
===============>>#4 票数:11
我需要解析一个包含表格数据的PDF文件。 我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。 问题在于文本提取无法按我期望的方式处理表格数据。 例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据):
+----------------------------------------------------------------+
| AIH | Value | Complexity | Financing |
| | | Medium | High | Not applicable | MAC/Other | FAE |
+----------------------------------------------------------------+
| xyz | 12.43 | 12.34 | | | 12.34 | |
+----------------------------------------------------------------+
| abc | 1.56 | | 1.56 | | | 1.56|
+----------------------------------------------------------------+
然后,我使用PDFBox:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
这两行数据将像这样提取: