现在已经有一些工具软,可以识别扫描版PDF文件中的表格,但是效果差强人意,会有很多错误,还需要进行很多修改。
万知作为李开复老师旗下零一万物AI大模型的产品,不仅可以免费,而且识别准确率最高,几乎没有任何错误,可以完美还原原文档内容。
打开万知:https://www.wanzhi.com/chatwithdoc,上传扫描图片版的PDF文件,
输入提示词:提取PDF中的表格内容,然后 全部合并在一起,以markdown格式输出表格
只提取了一部分,看来没法一步到位,那就拆分成几步。
输入提示词:提取文档中第1页的表格内容,以markdown格式输出表格
很完美的提取出来,点击右上角的复制代码,然后粘贴到Arya - 在线 Markdown 编辑器 https://markdown.lovejade.cn/
继续提取文档中第2页的表格内容,以markdown格式输出表格,一直到第6页,然把新提取的markdown格式表格复制到Arya - 在线 Markdown 编辑器里面:
右边就是表格,选择,复制到Excel中:
和原表格对照检查,没有发现什么错误之处,格式排版也保持的非常好。