MMOCR学习笔记

目录

一、推理

1、基础用法

2、初始化

3、推理_输入&输出

4、储存结果

二、配置文件

1、配置文件读取

2、配置文件的继承

(1)继承机制概述

(2)修改继承字段

(3)删除字典中的 key

(4)base 变量的引用

(5)配置文件的导出

三、数据集准备

一键式准备脚本

四、Notebook教程

1、训练步骤

2、测试步骤

%下载、训练与测试IIIT5K数据集实录


我是新手一枚,欢迎友好讨论哦!

一、推理

推理 ‒ MMOCR 1.0.1 文档

1、基础用法

MMOCR推理器分为两类:MMOCRInferencer推理标准推理器。

(1)MMOCRInferencer推理:提供了 MMOCRInferencer,一个专门为 MMOCR 设计的便捷推理接口。它封装了 MMOCR 中的所有推理器。

#需要用到的工具库
from mmocr.apis import MMOCRInferencer
# MMOCRInferencer模型初始化
ocr = MMOCRInferencer(det='DBNet', rec='SAR')
# 进行推理并可视化结果(由于远程服务器不支持图形化显示,则需要save_pred)
ocr('demo/demo_text_ocr.jpg',out_dir='output_ocr/', save_pred=True, save_vis=True)

(2)标准推理器:MMOCR 中的每个基本任务都有一个标准推理器,即 TextDetInferencer(文本检测)(检测出文本所在区域),TextRecInferencer(文本识别)(下游任务),TextSpottingInferencer(端到端 OCR) 和 KIEInferencer(关键信息提取)。

from mmocr.apis import TextDetInferencer
# 读取模型(初始化)
inferencer = TextDetInferencer(model='DBNet')
# 推理
inferencer('demo/demo_text_ocr.jpg',out_dir='output_standard/', save_pred=True, save_vis=True)

2、初始化

每个推理器必须使用一个模型进行初始化。初始化时,可以手动选择推理设备

000MMOCRInferencer 初始化

两个参数 xxxxxx_weights,若使用预训练模型,则传模型的名字给det即可;同样可以传自定义的配置与权重

000标准推理器 初始化 

标准的 Inferencer 都接受两个参数,modelweights。具体模型库见 model-index.yml文件

3、推理_输入&输出

MMOCRInferencer及其标准推理器

输入:可以是图像路径(如上面的示例代码即为单张图像)、图像的Numpy数组、目录的路径(目录中的所有图像都将被处理)

输出:默认情况下,每个推理器都以字典格式返回预测结果,具体见用户指南。

4、储存结果

除了从返回值中获取预测结果,你还可以通过设置 out_dirsave_pred/save_vis 参数将预测结果和可视化结果导出到文件中。可以通过设置 batch_size 来自定义批量推理的批大小。 默认批大小为 1(可选参数)

inferencer('img_1.jpg', out_dir='outputs/', save_pred=True, save_vis=True)

二、配置文件

配置文件 ‒ MMOCR 1.0.1 文档

这部分需要结合MMEngine的配置文件来进行学习 配置(Config) ‒ mmengine 0.10.3 文档

MMOCR 最常用的操作为三种:配置文件的继承,对 base 变量的引用以及对 base 变量的修改。MMOCR 所有配置文件都放置在 configs 文件夹下。同时各个任务算法配置文件夹下进一步划分为两个部分:base 文件夹与诸多算法文件夹

注册机制——(以dict字典为参数传递model所需的参数),注册器维护着模块的构建方式和它的名字之间的映射。下面是手动方式与注册机制方式

# 基于注册机制的例子
runner = Runner(model=dict(type='MyAwesomeModel',layers=50,activation='relu'),...)
# 基于手动构建的例子
model = MyAwesomeModel(layers=18, activation='relu')
runner = Runner(model=model,...)

1、配置文件读取

配置类能够支持不同格式的配置文件,包括 pythonjsonyaml,用户可以根据需求选择自己偏好的格式。配置类为三种类型提供了统一的接口 Config.fromfile(),来读取和解析配置文件。

from mmengine.config import Config
#读取.py类型的配置文件
cfg = Config.fromfile('learn_read_config.py')
print(cfg)

2、配置文件的继承

本部分来自 MMEngine 配置文件

(1)继承机制概述

两个不同的配置文件之间的差异很小,可能仅仅只改了一个字段,我们就需要将所有内容复制粘贴一次。为了解决这个问题,配置文件增加了继承的机制,即一个配置文件 A 可以将另一个配置文件 B 作为自己的基础,直接继承了 B 中所有字段,而不必显式复制粘贴

_base_ 是配置文件的保留字段,指定了该配置文件的继承来源。支持继承多个文件,将同时获得这多个文件中的所有字段,但是要求继承的多个文件中没有相同名称的字段,否则会报错。

#optimizer_cfg.py:
optimizer = dict(type='SGD', lr=0.02, momentum=0.9, weight_decay=0.0001)
#resnet50.py:
_base_ = ['optimizer_cfg.py']
model = dict(type='ResNet', depth=50)

由于_base_中继承了上面的配置文件,则下面的配置文件中也会有optimizer字段

(2)修改继承字段

对继承文件个别字段进行修改时,只需要在新的配置文件中,重新定义一下需要修改的字段即可。对于非字典类型的字段,例如整数,字符串,列表等,重写即可完全覆盖。

_base_ = ['optimizer_cfg.py', 'runtime_cfg.py']
model = dict(type='ResNet', depth=50)
#使用 dict()函数 修改继承的配置文件
optimizer = dict(lr=0.01)

(3)删除字典中的 key

有时候我们对于继承过来的字典类型字段,不仅仅是想修改其中某些 key,可能还需要删除其中的一些 key。这时候在重新定义这个字典时,需要指定 delete=True,表示将没有在新定义的字典中出现的 key 全部删除。

_base_ = ['optimizer_cfg.py', 'runtime_cfg.py']
model = dict(type='ResNet', depth=50)
optimizer = dict(_delete_=True, type='SGD', lr=0.01)
#则此时 optimizer 只剩 type 与 lr 两个参数

(4)base 变量的引用

有时,我们可能需要直接引用 _base_ 配置中的某些字段,以避免重复定义。假设我们想要获取 _base_ 配置中的变量 pseudo,就可以直接通过_base_.pseudo 获得 _base_ 配置中的变量

_base_ = ['resnet50.py']
#利用 _base_.pseudo 方式来直接引用字段
#此时 a 变为当前配置文件中的 “新字段”
a = _base_.model
a.type = 'MobileNet'

(5)配置文件的导出

在启动训练脚本时,用户可能通过传参的方式来修改配置文件的部分字段,提供了 dump 接口来导出更改后的配置文件,用户可以通过 cfg.dump('config.xxx') 来选择导出文件的格式(.yaml .json .py)

cfg = Config.fromfile('resnet50.py')
#导出更改后的配置文件
cfg.dump('resnet50_dump.py')

三、数据集准备

需要进入mmocr工作目录 才能进行下面代码的执行

一键式准备脚本

MMOCR 提供了统一的一站式数据集准备脚本 prepare_dataset.py,仅需一行命令即可完成数据的下载、解压、格式转换,及基础配置的生成

python tools/dataset_converters/prepare_dataset.py [-h] [--nproc NPROC] [--task 
{textdet,textrecog,textspotting,kie}] [--splits SPLITS [SPLITS ...]] [--lmdb] 
[--overwrite-cfg] [--dataset-zoo-path DATASET_ZOO_PATH] datasets [datasets ...]

 

以 ICDAR 2015 数据集的文本检测任务准备步骤为例,可以执行以下命令来完成数据集准备:

#在Terminal执行以下命令
python tools/dataset_converters/prepare_dataset.py icdar2015 --task textdet

数据集准备完成后,mmocr目录中data文件夹下应该存在以下目录:

四、Notebook教程

参考教程 colab.research.google.com

1、训练步骤

此部分来自于 Training SAR on a Toy Dataset 章节

1、转换成MMOCR支持的数据格式;

2、修改训练时的配置文件;

3、开始训练

以下为训练步骤示例,利用的是MMOCR附带的ToyDataSet,因此不需要转化数据格式

请注意,要将工作目录转移到mmocr才能执行以下代码(这里是SAR识别模型的训练)

import os
#训练时,都需要从mmengine.runner中import Runner库
from mmengine.runner import Runner
import time
from mmengine import Config
#用来 执行推理 与 可视化预测结果
from mmocr.apis import TextRecInferencer

##### 加载配置文件 #####
cfg = Config.fromfile('configs/textrecog/sar/sar_resnet31_parallel-decoder_5e_toy.py')

# 接下来对配置文件进行修改
#修改工作目录,这里只需要一个空的文件夹即可,日志等文件会自动保存
cfg.work_dir = 'work_dirs/sar_resnet31_parallel-decoder_5e_toy/'
# 配置 batch size, learning rate, and maximum epochs
cfg.optim_wrapper.optimizer.lr = 1e-3
cfg.train_dataloader.batch_size = 5
cfg.train_cfg.max_epochs = 100
# Save checkpoint every 10 epochs
cfg.default_hooks.checkpoint.interval = 10
# We don't need any learning rate scheduler fosetr a toy data
cfg.param_scheduler = None
# Set seed thus the results are more reproducible
cfg.randomness = dict(seed=0)
# We can initialize the logger for training and have a look
# at the final config used for training
# 打印出最终的配置文件
print(f'Config:\n{cfg.pretty_text}')

##### 开始训练 #####
# Optionally, give visualizer a unique name to avoid dupliate instance being
# created in multiple runs
# 给visualizer重命名为当前的时间(可选)
cfg.visualizer.name = f'{time.localtime()}'

#利用修改后的cfg配置文件进行训练
runner = Runner.from_cfg(cfg)
runner.train()
#训练模型后 利用改动过的配置文件 cfg_file 与 权重文件 checkpoint 进行测试
img = 'tests/data/rec_toy_dataset/imgs/1036169.jpg'
checkpoint = "work_dirs/sar_resnet31_parallel-decoder_5e_toy/epoch_100.pth"
cfg_file = "configs/textrecog/sar/sar_resnet31_parallel-decoder_5e_toy.py"
#利用到第一节提到的 标准推理器
#cfg_file--模型 checkpoint--权重
infer = TextRecInferencer(cfg_file, checkpoint)
#将推理后的图片可视化
result = infer(img, out_dir='output_0127/', save_pred=True, save_vis=True,return_vis=True)
#打印推理的结果
print(f'result: {result["predictions"]}' )

2、测试步骤

此部分来自 Evaluating SAR 章节

1、转换成MMOCR支持的数据格式;

2、修改测试时的配置文件

3、开始测试

from mmengine.runner import Runner
import time

##### 修改测试时的配置文件 #####
# The location of pretrained weight
# 将配置文件中的“load_from”字段修改为刚刚的checkpoint
# 这一步非常重要 将权重文件进行加载
cfg['load_from'] = 'work_dirs/sar_resnet31_parallel-decoder_5e_toy/epoch_100.pth'

# Optionally, give visualizer a unique name to avoid dupliate instance being
# created in multiple runs
cfg.visualizer.name = f'{time.localtime()}'

##### 开始测试 #####
#测试时将 train 改为 test 即可
runner = Runner.from_cfg(cfg)
runner.test()

%下载、训练与测试IIIT5K数据集实录

本部分仅作参考,按照我以下的配置,loss的极限似乎是3.5左右(笑哭

1、下载IIIT5K数据集

python tools/dataset_converters/prepare_dataset.py iiit5k --task textrecog
#IIIT5K数据集准备完成

若下载失败,也可以通过下载到本地再上传的方式进行数据集的准备。

2、重写配置文件

随机选取CRNN模型,在 config 目录下,找到 textrecog 文件夹下的 CRNN 文件夹,新建crnn_iiit5k.py 文件作为IIIT5K数据集训练时的配置文件。如“配置文件的继承”章节所述,_base_[...] 为本文件所继承的配置文件。

##### 尝试写配置文件 #####
#_base_ 继承文件仿照 _5e_toy 进行构造
_base_ = [
    '../_base_/default_runtime.py',
    '../_base_/datasets/iiit5k.py',
    '../_base_/schedules/schedule_adadelta_5e.py',
    '_base_crnn_mini-vgg.py',
]

剩余部分配置需要修改数据集地址与数据集字段,由于IIIT5K数据集是MMOCR支持的数据集,在内置的../_base_/datasets/iiit5k.py

#去'../_base_/datasets/iiit5k.py'文件中寻找对应的字段名称
train_list = [_base_.iiit5k_textrecog_train]
test_list = [_base_.iiit5k_textrecog_test]

default_hooks = dict(logger=dict(type='LoggerHook', interval=50), )

train_dataloader = dict(
    batch_size=64,
    num_workers=8,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
        type='ConcatDataset',
        datasets=train_list,
        pipeline=_base_.train_pipeline))

val_dataloader = dict(
    batch_size=1,
    num_workers=4,
    persistent_workers=True,
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
        type='ConcatDataset',
        datasets=test_list,
        pipeline=_base_.test_pipeline))
test_dataloader = val_dataloader

_base_.model.decoder.dictionary.update(
    dict(with_unknown=True, unknown_token=None))
_base_.train_cfg.update(dict(max_epochs=200, val_interval=10))

val_evaluator = dict(dataset_prefixes=['IIIT5K'])
test_evaluator = val_evaluator

3、新建工作目录

work-dir 工作目录下新建一个同名的 crnn_iiit5k/ 文件夹,并在 cfg.work-dir 字段中进行设置

#修改工作目录
cfg.work_dir='work_dirs/crnn_iiit5k/'

进行上述部署后,模型即可训练与测试啦!

"Notebook教程"中有训练与测试示例,故此处不再赘述。

  • 22
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值