最近使用PPStructure进行表格识别,并训练了多个模型,包括单行文本检测模型,单行文本识别模型,表格结构预测模型。
各模型说明可以查看链接:https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.7
训练步骤可以查看:PaddleOCR训练属于自己的模型详细教程(从打标,制作数据集,训练到应用,以行驶证识别为例)-CSDN博客推理模型如何使用,通过查看paddleocr代码,在此进行说明:
PPstructure推理模型用法:
table_engine = PPStructure(
use_gpu=False,
show_log=True,
lang='ch',
det_model_dir='new_model/det_model', #单行文本检测模型
rec_model_dir='new_model/rec_model', #单行文本识别模型
table_model_dir='new_model/SLANet_ch/infer', #表格结构模型
layout_model_dir='new_model/layout/picodet_lcnet_x1_0_fgd_layout_table_infer', #布局分析模型
layout_url='new_model/layout/layout_table_dict.txt',
)
使用相对路径指向训练好的推理模型即可。
PaddleOCR推理模型用法:
ocr_engine = PaddleOCR(
use_angle_cls=True,
use_gpu=True,
rec_model_dir='new_model/rec_model/', # 单行文本识别模型文件夹路径
det_model_dir='new_model/det_model/', # 单行文本检测模型文件夹路径
)