目标:从pdf文件中读取表格数据,每页一个大表格。
尝试:
1、spire.pdf,可以快速读取pdf文本和图片,但读取的表格数据完全混乱,基本无法还原。
2、iTextSharp 7,碰到两个问题:无法读取中文内容(网上的解决方案都是针对5版本的),无法完整解析获取表格内容(只是单纯分为块)
解决方案:https://www.codeproject.com/Tips/1262815/Extract-Tables-from-PDFs
读取表格内容(非规则),结果存储与DataTable的单元格中,虽然布局与原表格还存在较大差异,但表格拆分很准确。
能够正确解析中文。