MMOCR学习笔记

我_很神秘

已于 2024-02-01 13:46:15 修改

阅读量1.3k

点赞数 22

文章标签：学习笔记 ocr linux

于 2024-02-01 12:42:59 首次发布

本文链接：https://blog.csdn.net/qq_73935779/article/details/135971161

版权

我是新手一枚，欢迎友好讨论哦！

一、推理

推理 ‒ MMOCR 1.0.1 文档

1、基础用法

MMOCR推理器分为两类：MMOCRInferencer推理与标准推理器。

（1）MMOCRInferencer推理：提供了 MMOCRInferencer，一个专门为 MMOCR 设计的便捷推理接口。它封装了 MMOCR 中的所有推理器。

#需要用到的工具库
from mmocr.apis import MMOCRInferencer
# MMOCRInferencer模型初始化
ocr = MMOCRInferencer(det='DBNet', rec='SAR')
# 进行推理并可视化结果（由于远程服务器不支持图形化显示，则需要save_pred）
ocr('demo/demo_text_ocr.jpg',out_dir='output_ocr/', save_pred=True, save_vis=True)

（2）标准推理器：MMOCR 中的每个基本任务都有一个标准推理器，即 TextDetInferencer（文本检测）(检测出文本所在区域)，TextRecInferencer（文本识别）（下游任务），TextSpottingInferencer（端到端 OCR）和 KIEInferencer（关键信息提取）。

from mmocr.apis import TextDetInferencer
# 读取模型（初始化）
inferencer = TextDetInferencer(model='DBNet')
# 推理
inferencer('demo/demo_text_ocr.jpg',out_dir='output_standard/', save_pred=True, save_vis=True)

2、初始化

每个推理器必须使用一个模型进行初始化。初始化时，可以手动选择推理设备

000MMOCRInferencer 初始化

两个参数 xxx 和 xxx_weights，若使用预训练模型，则传模型的名字给det即可；同样可以传自定义的配置与权重

000标准推理器初始化

标准的 Inferencer 都接受两个参数，model 和 weights。具体模型库见 model-index.yml文件

3、推理_输入&输出

MMOCRInferencer及其标准推理器

输入：可以是图像路径（如上面的示例代码即为单张图像）、图像的Numpy数组、目录的路径（目录中的所有图像都将被处理）

输出：默认情况下，每个推理器都以字典格式返回预测结果，具体见用户指南。

4、储存结果

除了从返回值中获取预测结果，你还可以通过设置 out_dir 和 save_pred/save_vis 参数将预测结果和可视化结果导出到文件中。可以通过设置 batch_size 来自定义批量推理的批大小。默认批大小为 1（可选参数）

inferencer('img_1.jpg', out_dir='outputs/', save_pred=True, save_vis=True)

二、配置文件

配置文件 ‒ MMOCR 1.0.1 文档

这部分需要结合MMEngine的配置文件来进行学习配置(Config) ‒ mmengine 0.10.3 文档

MMOCR 最常用的操作为三种：配置文件的继承，对 base 变量的引用以及对 base 变量的修改。MMOCR 所有配置文件都放置在 configs 文件夹下。同时各个任务算法配置文件夹下进一步划分为两个部分：base 文件夹与诸多算法文件夹

注册机制——（以dict字典为参数传递model所需的参数），注册器维护着模块的构建方式和它的名字之间的映射。下面是手动方式与注册机制方式

# 基于注册机制的例子
runner = Runner(model=dict(type='MyAwesomeModel',layers=50,activation='relu'),...)

# 基于手动构建的例子
model = MyAwesomeModel(layers=18, activation='relu')
runner = Runner(model=model,...)

1、配置文件读取

配置类能够支持不同格式的配置文件，包括 python，json，yaml，用户可以根据需求选择自己偏好的格式。配置类为三种类型提供了统一的接口 Config.fromfile()，来读取和解析配置文件。

from mmengine.config import Config
#读取.py类型的配置文件
cfg = Config.fromfile('learn_read_config.py')
print(cfg)

2、配置文件的继承

本部分来自 MMEngine 配置文件

（1）继承机制概述

两个不同的配置文件之间的差异很小，可能仅仅只改了一个字段，我们就需要将所有内容复制粘贴一次。为了解决这个问题，配置文件增加了继承的机制，即一个配置文件 A 可以将另一个配置文件 B 作为自己的基础，直接继承了 B 中所有字段，而不必显式复制粘贴

_base_ 是配置文件的保留字段，指定了该配置文件的继承来源。支持继承多个文件，将同时获得这多个文件中的所有字段，但是要求继承的多个文件中没有相同名称的字段，否则会报错。

#optimizer_cfg.py：
optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0001)

#resnet50.py：
_base_ = ['optimizer_cfg.py']
model = dict(type='ResNet', depth=50)

由于_base_中继承了上面的配置文件，则下面的配置文件中也会有optimizer字段

（2）修改继承字段

对继承文件个别字段进行修改时，只需要在新的配置文件中，重新定义一下需要修改的字段即可。对于非字典类型的字段，例如整数，字符串，列表等，重写即可完全覆盖。

_base_ = ['optimizer_cfg.py', 'runtime_cfg.py']
model = dict(type='ResNet', depth=50)
#使用 dict（）函数 修改继承的配置文件
optimizer = dict(lr=0.01)

（3）删除字典中的 key

有时候我们对于继承过来的字典类型字段，不仅仅是想修改其中某些 key，可能还需要删除其中的一些 key。这时候在重新定义这个字典时，需要指定 delete=True，表示将没有在新定义的字典中出现的 key 全部删除。

_base_ = ['optimizer_cfg.py', 'runtime_cfg.py']
model = dict(type='ResNet', depth=50)
optimizer = dict(_delete_=True, type='SGD', lr=0.01)
#则此时 optimizer 只剩 type 与 lr 两个参数

（4）`base` 变量的引用

有时，我们可能需要直接引用 _base_ 配置中的某些字段，以避免重复定义。假设我们想要获取 _base_ 配置中的变量 pseudo，就可以直接通过_base_.pseudo 获得 _base_ 配置中的变量

_base_ = ['resnet50.py']
#利用 _base_.pseudo 方式来直接引用字段
#此时 a 变为当前配置文件中的 “新字段”
a = _base_.model
a.type = 'MobileNet'

（5）配置文件的导出

在启动训练脚本时，用户可能通过传参的方式来修改配置文件的部分字段，提供了 dump 接口来导出更改后的配置文件，用户可以通过 cfg.dump('config.xxx') 来选择导出文件的格式（.yaml .json .py）

cfg = Config.fromfile('resnet50.py')
#导出更改后的配置文件
cfg.dump('resnet50_dump.py')

三、数据集准备

需要进入mmocr工作目录才能进行下面代码的执行

一键式准备脚本

MMOCR 提供了统一的一站式数据集准备脚本 prepare_dataset.py，仅需一行命令即可完成数据的下载、解压、格式转换，及基础配置的生成

python tools/dataset_converters/prepare_dataset.py [-h] [--nproc NPROC] [--task 
{textdet,textrecog,textspotting,kie}] [--splits SPLITS [SPLITS ...]] [--lmdb] 
[--overwrite-cfg] [--dataset-zoo-path DATASET_ZOO_PATH] datasets [datasets ...]

以 ICDAR 2015 数据集的文本检测任务准备步骤为例，可以执行以下命令来完成数据集准备：

#在Terminal执行以下命令
python tools/dataset_converters/prepare_dataset.py icdar2015 --task textdet

数据集准备完成后，mmocr目录中data文件夹下应该存在以下目录：

四、Notebook教程

参考教程 colab.research.google.com

1、训练步骤

此部分来自于 Training SAR on a Toy Dataset 章节

1、转换成MMOCR支持的数据格式；

2、修改训练时的配置文件；

3、开始训练

以下为训练步骤示例，利用的是MMOCR附带的ToyDataSet，因此不需要转化数据格式

请注意，要将工作目录转移到mmocr才能执行以下代码（这里是SAR识别模型的训练）

import os
#训练时，都需要从mmengine.runner中import Runner库
from mmengine.runner import Runner
import time
from mmengine import Config
#用来 执行推理 与 可视化预测结果
from mmocr.apis import TextRecInferencer

##### 加载配置文件 #####
cfg = Config.fromfile('configs/textrecog/sar/sar_resnet31_parallel-decoder_5e_toy.py')

# 接下来对配置文件进行修改
#修改工作目录，这里只需要一个空的文件夹即可，日志等文件会自动保存
cfg.work_dir = 'work_dirs/sar_resnet31_parallel-decoder_5e_toy/'
# 配置 batch size, learning rate, and maximum epochs
cfg.optim_wrapper.optimizer.lr = 1e-3
cfg.train_dataloader.batch_size = 5
cfg.train_cfg.max_epochs = 100
# Save checkpoint every 10 epochs
cfg.default_hooks.checkpoint.interval = 10
# We don't need any learning rate scheduler fosetr a toy data
cfg.param_scheduler = None
# Set seed thus the results are more reproducible
cfg.randomness = dict(seed=0)
# We can initialize the logger for training and have a look
# at the final config used for training
# 打印出最终的配置文件
print(f'Config:\n{cfg.pretty_text}')

##### 开始训练 #####
# Optionally, give visualizer a unique name to avoid dupliate instance being
# created in multiple runs
# 给visualizer重命名为当前的时间（可选）
cfg.visualizer.name = f'{time.localtime()}'

#利用修改后的cfg配置文件进行训练
runner = Runner.from_cfg(cfg)
runner.train()
#训练模型后 利用改动过的配置文件 cfg_file 与 权重文件 checkpoint 进行测试
img = 'tests/data/rec_toy_dataset/imgs/1036169.jpg'
checkpoint = "work_dirs/sar_resnet31_parallel-decoder_5e_toy/epoch_100.pth"
cfg_file = "configs/textrecog/sar/sar_resnet31_parallel-decoder_5e_toy.py"
#利用到第一节提到的 标准推理器
#cfg_file--模型 checkpoint--权重
infer = TextRecInferencer(cfg_file, checkpoint)
#将推理后的图片可视化
result = infer(img, out_dir='output_0127/', save_pred=True, save_vis=True,return_vis=True)
#打印推理的结果
print(f'result: {result["predictions"]}' )

2、测试步骤

此部分来自 Evaluating SAR 章节

1、转换成MMOCR支持的数据格式；

2、修改测试时的配置文件

3、开始测试

from mmengine.runner import Runner
import time

##### 修改测试时的配置文件 #####
# The location of pretrained weight
# 将配置文件中的“load_from”字段修改为刚刚的checkpoint
# 这一步非常重要 将权重文件进行加载
cfg['load_from'] = 'work_dirs/sar_resnet31_parallel-decoder_5e_toy/epoch_100.pth'

# Optionally, give visualizer a unique name to avoid dupliate instance being
# created in multiple runs
cfg.visualizer.name = f'{time.localtime()}'

##### 开始测试 #####
#测试时将 train 改为 test 即可
runner = Runner.from_cfg(cfg)
runner.test()

%下载、训练与测试IIIT5K数据集实录

本部分仅作参考，按照我以下的配置，loss的极限似乎是3.5左右（笑哭

1、下载IIIT5K数据集

python tools/dataset_converters/prepare_dataset.py iiit5k --task textrecog
#IIIT5K数据集准备完成

若下载失败，也可以通过下载到本地再上传的方式进行数据集的准备。

2、重写配置文件

随机选取CRNN模型，在 config 目录下，找到 textrecog 文件夹下的 CRNN 文件夹，新建crnn_iiit5k.py 文件作为IIIT5K数据集训练时的配置文件。如“配置文件的继承”章节所述，_base_[...] 为本文件所继承的配置文件。

##### 尝试写配置文件 #####
#_base_ 继承文件仿照 _5e_toy 进行构造
_base_ = [
    '../_base_/default_runtime.py',
    '../_base_/datasets/iiit5k.py',
    '../_base_/schedules/schedule_adadelta_5e.py',
    '_base_crnn_mini-vgg.py',
]

剩余部分配置需要修改数据集地址与数据集字段，由于IIIT5K数据集是MMOCR支持的数据集，在内置的../_base_/datasets/iiit5k.py

#去'../_base_/datasets/iiit5k.py'文件中寻找对应的字段名称
train_list = [_base_.iiit5k_textrecog_train]
test_list = [_base_.iiit5k_textrecog_test]

default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )

train_dataloader = dict(
    batch_size=64,
    num_workers=8,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
        type='ConcatDataset',
        datasets=train_list,
        pipeline=_base_.train_pipeline))

val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
        type='ConcatDataset',
        datasets=test_list,
        pipeline=_base_.test_pipeline))
test_dataloader = val_dataloader

_base_.model.decoder.dictionary.update(
    dict(with_unknown=True, unknown_token=None))
_base_.train_cfg.update(dict(max_epochs=200, val_interval=10))

val_evaluator = dict(dataset_prefixes=['IIIT5K'])
test_evaluator = val_evaluator

3、新建工作目录

在 work-dir 工作目录下新建一个同名的 crnn_iiit5k/ 文件夹，并在 cfg.work-dir 字段中进行设置

#修改工作目录
cfg.work_dir='work_dirs/crnn_iiit5k/'

进行上述部署后，模型即可训练与测试啦！

"Notebook教程"中有训练与测试示例，故此处不再赘述。

我_很神秘

关注

22
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
MMOCR学习笔记

一个小白的MMOCR学习笔记，欢迎友好讨论
复制链接

扫一扫

MMOCR学习笔记

一、推理

1、基础用法

2、初始化

3、推理_输入&输出

4、储存结果

二、配置文件

1、配置文件读取

2、配置文件的继承

（1）继承机制概述

（2）修改继承字段

（3）删除字典中的 key

（4）base 变量的引用

（5）配置文件的导出

三、数据集准备

一键式准备脚本

四、Notebook教程

1、训练步骤

2、测试步骤

%下载、训练与测试IIIT5K数据集实录

“相关推荐”对你有帮助么？

（4）`base` 变量的引用