OCR识别图片表格

YI世繁华

已于 2022-05-22 08:36:56 修改

阅读量4.5k

点赞数 5

文章标签： python paddlepaddle opencv

于 2022-05-12 11:15:36 首次发布

本文链接：https://blog.csdn.net/m0_51954089/article/details/124694703

版权

支持对图片形式的文档进行版面分析，可以划分文字、标题、表格、图片以及列表5类区域（与Layout-Parser联合使用）
支持文字、标题、图片以及列表区域提取为文字字段（与PP-OCR联合使用）
支持表格区域进行结构化分析，最终结果输出Excel文件
支持python whl包和命令行两种方式，简单易用
支持版面分析和表格结构化两类任务自定义训练

二、安装PP-Structure

可根据官网操作(PaddleOCR/README_ch.md at release/2.3 · PaddlePaddle/PaddleOCR · GitHub)

1、打开命令提示符（Win+R），输入cmd

2、安装PaddlePaddle，输入pip install paddlepaddle

3、安装Layout-Parser，输入pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl

4、安装paddleocr，输入pip install paddleocr

（按步骤安装，安装时间有点慢）

三、使用Jupyter Notebook编写代码

1、导入需要用的包

from paddleocr import PaddleOCR,draw_ocr,draw_structure_result,save_structure_res,PPStructure
import os
import cv2
import pandas as pd

2、

table =PPStructure(show_log=True,use_gpu=True)

出现

[2022/05/03 16:11:39] ppocr DEBUG: Namespace(help='==SUPPRESS==', use_gpu=False, ir_optim=True, use_tensorrt=False, min_subgraph_size=15, precision='fp32', gpu_mem=500, image_dir=None, det_algorithm='DB', det_model_dir='C:\\Users\\yi/.paddleocr/whl\\det\\ch\\ch_PP-OCRv2_det_infer', det_limit_side_len=960, det_limit_type='max', det_db_thresh=0.3, det_db_box_thresh=0.6, det_db_unclip_ratio=1.5, max_batch_size=10, use_dilation=False, det_db_score_mode='fast', det_east_score_thresh=0.8, det_east_cover_thresh=0.1, det_east_nms_thresh=0.2, det_sast_score_thresh=0.5, det_sast_nms_thresh=0.2, det_sast_polygon=False, det_pse_thresh=0, det_pse_box_thresh=0.85, det_pse_min_area=16, det_pse_box_type='quad', det_pse_scale=1, scales=[8, 16, 32], alpha=1.0, be