表格识别-可转换为excel-提供预训练模型
- 不说废话:表格的检测与识别可分为两个大部分:表格的检测与表格的内容识别,表格的检测不多BB,拿个目标检测或者分割模型就行
- 表格内容的识别包括两个部分:表格线的检测与表格中文本的检测与识别。后者不多BB,你用paddle或者其他任意的ocr算法都行
- 这里我也不提供方法,直接给出github地址,方法也不是我想的,但是我写了个很丑的页面:
Github链接:
https://github.com/whn09/table_structure_recognition/tree/main
这个代码中的表格检测可能你用不到,需要重新训练,但是他的表格线检测成为excel的思路可以借鉴,有好多细节自己去探索把,另外代码的ocr部分是调用的亚马逊的api接口,你可以替换 这里我也推荐一个ocr的github地址
Github链接:
https://github.com/myhub/tr