基于PaddleOCR的文字表格识别与解析方案

本文档详细介绍了如何安装Python环境,创建并激活conda虚拟环境,安装PaddleOCR及其GPU或CPU版本。接着,部署OCR识别的web服务,并提供了JAVA程序集成调用的步骤,包括添加依赖、调用示例代码以及表格解析配置文件的说明。
部署运行你感兴趣的模型镜像

一、安装python环境

1、安装miniconda,过程略。

2、创建虚拟环境,名称为:paddle_env

# 在命令行输入以下命令,创建名为paddle_env的环境
# 此处为加速下载,使用清华源
conda create --name paddle_env python=3.8 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/  # 这是一行命令

3、激活刚创建的conda环境,在命令行中输入以下命令:

# 激活paddle_env环境
conda activate paddle_env
# 查看当前python的位置
where python

二、安装paddleocr

1、您的机器安装的是CUDA9或CUDA10,请运行以下命令安装

pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple

2、您的机器是CPU,请运行以下命令安装

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

3、安装 paddleocr,过程会持续一段时间

# pip install "paddleocr>=2.0.1" # 推荐使用2.0.1+版本
# 使用百度源
pip install "paddleocr>=2.0.1" -i https://mirror.baidu.com/pypi/simple

4、安装:flask提供web服务

pip install flask 

三、部署ocr识别web服务

拿到程序包,压缩文件中是一个文件夹:open_ocr,把该文件夹拷贝到服务器上即可。

然后命令行运行:

# 进入open_ocr文件夹
cd open_ocr

# 启动web程序
python application.py

1、在文件中修改图片存储路径为服务器的路径! 

 

2、修改启动服务ip地址和端口

四、JAVA程序集成调用

1)添加调用库依赖

<dependency>
    <groupId>com.walkersoft</groupId>
    <artifactId>walker-ml-openocr</artifactId>
</dependency>

2)程序调用示例

@Test
    public void TestRemoteAndParse(){

        // 创建OCR引擎对象
        TestOcrEngine ocrEngine = new TestOcrEngine();
        ocrEngine.setRemoteUrl("http://127.0.0.1:8801/ai/ocr/table");
        ocrEngine.startup();

        // 1.请求识别服务
        byte[] fileContent = FileUtils.getFileBytes(new File("D:/dev_tools/ai/demo_table_01.jpg"));
        String imgBase64 = new String(Base64.encodeBase64(fileContent));
        List<TextBlock> data = ocrEngine.recognize("1", imgBase64); // id为业务唯一标识,存储图片拼接路径使用
        System.out.println("返回识别结果:" + data == null ? "" : data.size());

        // 2.解析表格内容
        TableTextResolver tableTextResolver = (TableTextResolver)ocrEngine.getTextResolver(OcrType.TextTable);
        if(tableTextResolver == null){
            System.out.println("没有配置表格解析器:");
            return;
        }

        // 3.获取表格数据
        TableObject tableObject = tableTextResolver.resolve(data, ocrEngine.getTableConfigList());
        if(tableObject == null){
            System.out.println("没有解析到任何表格数据");
            return;
        }
        Map<String, CellObject> tableData = tableObject.getTableDataMap();
        if(tableData != null){
            for(CellObject co : tableData.values()){
                System.out.println(co);
            }
            System.out.println("----------->>>>>" + tableData.get("na_shui_ren"));
        }
    }

3)下载调用示例源码

从maven私服下载:iplatform工程即可,略。

五、表格解析配置文件

由于OCR识别的是通用文字,因此表格还需要通过模板的方式定义每种类型的格式。目前根据需求定义了简单的单元格方式,规则如下。每个类型表格都需要定义一个,文件后缀为:txt。

这里以大地车险保险为例,配置模板如下:

# 大地保险 表格解析 配置文件

# table_type_keys定义了该表格类型,通过一些关键词(and)来匹配。
table_type_keys=大地,保险,机动车

# table_setting 表格整体参数
# cell_tolerance 单元格边框容差值(像素)
# title_tolerance 标题格文字匹配百分比,1 表示完全匹配,0.5为50%
# multi_line_tolerance 多行距离容差,比如:第一行与第二行之间间隔高度(像素)
table_setting={"cell_tolerance":7, "title_tolerance":0.8, "multi_line_tolerance":26}

# remove_columns 要删除单元格的关键词列表,这些单元格有干扰要移除
remove_columns=责任,限额,代,收,车,船,税,特,别,约,定,重,要,提,示,保,险,人

# 1) name 单元格标题
# 2) none_cell 该属性不再单元格中,是连在一起的如:姓名:张三
# 3) order_num 单元格所在行号,不一定与表格一致,只要相同行格子有相同值即可。
# 4) align 对其方式,目前支持:left 和 center
# 5) end_flag 对于多行文本(超过2行),需要设置结束标志字符串,系统通过该值判断值结束
# 6) multi_line 多行类型:none(单行)、two_line(两行)、maybe_two_line(可能会有2行)、more(多行)
# 7) data_type 数据类型,暂未使用,后续使用该属性来让业务自定义解析单元格的值
# 8) full_row 是否整行单元格
# 9) min_value_size 单元格值最小长度,在有些格子粘连的时候需要截取标题和值
bao_xian_dan_hao={"name":"保险单号", "none_cell":true, "order_num":0, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":10}
bei_bao_xian_ren={"name":"被保险人", "none_cell":false, "order_num":1, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":2}
shen_fen_zheng={"name":"被保险人身份证号码(统一社会信用代码)", "none_cell":false, "order_num":1, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":10}
di_zhi={"name":"被保险人地址", "none_cell":false, "order_num":2, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":1}
dian_hua={"name":"联系电话", "none_cell":false, "order_num":2, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":8}
hao_pai_hao_ma={"name":"号牌号码", "none_cell":false, "order_num":3, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":6}
chang_pai_xing_hao={"name":"厂牌型号", "none_cell":false, "order_num":3, "align":"left", "end_flag":"", "multi_line":"two_line", "data_type":"", "full_row":false, "min_value_size":5}
fa_dong_ji_hao={"name":"发动机号", "none_cell":false, "order_num":3, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":6}
shi_bie_dai_ma={"name":"识别代码(车架号)", "none_cell":false, "order_num":4, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":13}
si_wang_shang_can={"name":"死亡伤残赔偿限额", "none_cell":false, "order_num":5, "align":"center", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":2}
wu_ze_ren_si_wang_shang_can={"name":"无责任死亡伤残赔偿限额", "none_cell":false, "order_num":5, "align":"center", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":2}
wu_ze_ren_yi_liao={"name":"无责任医疗费用赔偿限额", "none_cell":false, "order_num":6, "align":"center", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":2}
bao_xian_fei_he_ji={"name":"保险费合计(人民币大写)", "none_cell":false, "order_num":7, "align":"left", "end_flag":"", "multi_line":"two_line", "data_type":"", "full_row":true, "min_value_size":3}
na_shui_ren={"name":"纳税人识别号", "none_cell":false, "order_num":9, "align":"left", "end_flag":"", "multi_line":"none", "data_type":"", "full_row":false, "min_value_size":8}

-- 未完待续 --

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值