2024AIWIN 手写体 OCR 识别竞赛总结（任务一）(2)

2401_84139192

于 2024-05-15 04:01:52 发布

阅读量744

点赞数 28

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/2401_84139192/article/details/138882886

版权

程序员专栏收录该内容

146 篇文章 0 订阅

订阅专栏

在这里插入图片描述

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

B.数据内容示例：

原始手写体图像共分为三类，分别涉及银行名称、年月日、金额三大类，分别示意如下：

相应图片切片中可能混杂有一定量的干扰信息，分别示例如下；

识别结果 JSON 在训练集中的格式如下（请注意选手提交的结果文件 JSON 和训练集中的 JSON 格式不同）：

json 文件内容规范：

{

“image1”: “陆万捌千零贰拾伍元整”,

“image2”: “付经管院工资”,

“image3”: “”,

…

}

五、赛题赛程和提交要求

本赛题共分成三个大阶段：

线上比赛（包含任务一和任务二） ———— 解决方案复审 ———— 终选答辩

赛程总览示意如下：

具体方案

===============================================================

通过在网上查阅资料，得知OCR比赛最常用的模型是CRNN+CTC。所以我最开始也是采用这个方案。

上图是我找到的资料，有好多个版本。因为是第一次做OCR的项目，所以我优先选择有数据集的项目，这样可以快速的了解模型的输入输出。

所以我选择的第一个Attention_ocr.pytorch-master.zip，从名字上可以看出这个是加入注意力机制，感觉效果会好一些。

构建数据集

下图是Attention_ocr.pytorch-master.zip自带的数据集截图，从截图上可以看出，数据的格式：“图片路径+空格+标签”。我们也需要按照这样的格式构建数据集。

新建makedata.py文件，插入下面的代码。

import os

import json

#官方给的数据集

image_path_amount = “./data/train/amount/images”

image_path_date = “./data/train/date/images”

#增强数据集

image_path_test=‘./data/gan_test_15000/images/0’

image_path_train=‘./data/gan_train_15500_0/images/0’

amount_list = os.listdir(image_path_amount)

new_amount_list = []

for filename in amount_list:

new_amount_list.append(image_path_amount + “/” + filename)

date_list = os.listdir(image_path_date)

new_date_list = []

for filename in date_list:

new_date_list.append(image_path_date + “/” + filename)

new_test_list = []

for filename in amount_list:

new_test_list.append(image_path_amount + “/” + filename)

new_train_list = []

for filename in amount_list:

new_train_list.append(image_path_amount + “/” + filename)

image_path_amount和image_path_date是官方给定的数据集路径。

image_path_test和image_path_train是增强的数据集（在后面会讲如何做增强）

创建建立list，保存图片的路径。

amount_json = “./data/train/amount/gt.json”

date_json = “./data/train/date/gt.json”

train_json = “train_data.json”

test_json = “test_data.json”

with open(amount_json, “r”, encoding=‘utf-8’) as f:

load_dict_amount = json.load(f)

with open(date_json, “r”, encoding=‘utf-8’) as f:

load_dict_date = json.load(f)

with open(train_json, “r”, encoding=‘utf-8’) as f:

load_dict_train = json.load(f)

with open(test_json, “r”, encoding=‘utf-8’) as f:

load_dict_test = json.load(f)

四个json文件对应上面的四个list，json文件存储的是图片的名字和图片的标签，把json解析出来存到字典中。

#聚合list

all_list = new_amount_list + new_date_list+new_test_list+new_train_list

from sklearn.model_selection import train_test_split

#切分训练集合和验证集

train_list, test_list = train_test_split(all_list, test_size=0.15, random_state=42)

#聚合字典

all_dic = {}

all_dic.update(load_dict_amount)

all_dic.update(load_dict_date)

all_dic.update(load_dict_train)

all_dic.update(load_dict_test)

with open(‘train.txt’, ‘w’) as f:

for line in train_list:

f.write(line + " " + all_dic[line.split(‘/’)[-1]]+“\n”)

with open(‘val.txt’, ‘w’) as f:

for line in test_list:

f.write(line + " " + all_dic[line.split(‘/’)[-1]]+“\n”)

将四个list聚合为一个list。

使用train_test_split切分训练集和验证集。

聚合字典。

然后分别遍历trainlist和testlist，将其写入train.txt和val.txt。

到这里数据集就制作完成了。得到train.txt和val.txt

查看train.txt

数据集和自带的数据集格式一样了，然后我们就可以开始训练了。

获取class

==================================================================

新建getclass.py文件夹，加入以下代码：

import json

amount_json = “./data/train/amount/gt.json”

date_json = “./data/train/date/gt.json”

with open(amount_json, “r”, encoding=‘utf-8’) as f:

load_dict_amount = json.load(f)

with open(date_json, “r”, encoding=‘utf-8’) as f:

load_dict_date = json.load(f)

all_dic = {}

all_dic.update(load_dict_amount)

all_dic.update(load_dict_date)

list_key=[]

for keyline in all_dic.values():

for key in keyline:

if key not in list_key:

list_key.append(key)

with open(‘data/char_std_5990.txt’, ‘w’) as f:

for line in list_key:

f.write(line+“\n”)

执行完就可以得到存储class的txt文件。打开char_std_5990.txt,看到有21个类。

改进模型

===============================================================

crnn的卷积部分类似VGG，我对模型的改进主要有一下几个方面：

1、加入激活函数Swish。

2、加入BatchNorm。

3、加入SE注意力机制。

4、适当加深模型。

代码如下：

self.cnn = nn.Sequential(

nn.Conv2d(nc, 64, 3, 1, 1), Swish(), nn.BatchNorm2d(64),

nn.MaxPool2d(2, 2), # 64x16x50

nn.Conv2d(64, 128, 3, 1, 1), Swish(), nn.BatchNorm2d(128),

nn.MaxPool2d(2, 2), # 128x8x25

nn.Conv2d(128, 256, 3, 1, 1), nn.BatchNorm2d(256), Swish(), # 256x8x25

nn.Conv2d(256, 256, 3, 1, 1), nn.BatchNorm2d(256), Swish(), # 256x8x25

SELayer(256, 16),

nn.MaxPool2d((2, 2), (2, 1), (0, 1)), # 256x4x25

nn.Conv2d(256, 512, 3, 1, 1), nn.BatchNorm2d(512), Swish(), # 512x4x25

nn.Conv2d(512, 512, 1), nn.BatchNorm2d(512), Swish(),

nn.Conv2d(512, 512, 3, 1, 1), nn.BatchNorm2d(512), Swish(), # 512x4x25

SELayer(512, 16),

nn.MaxPool2d((2, 2), (2, 1), (0, 1)), # 512x2x25

nn.Conv2d(512, 512, 2, 1, 0), nn.BatchNorm2d(512), Swish()) # 512x1x25

SE和Swish

class SELayer(nn.Module):

def init(self, channel, reduction=16):

super(SELayer, self).init()

self.avg_pool = nn.AdaptiveAvgPool2d(1)

self.fc = nn.Sequential(

nn.Linear(channel, channel // reduction, bias=True),

nn.LeakyReLU(inplace=True),

nn.Linear(channel // reduction, channel, bias=True),

nn.Sigmoid()

)

def forward(self, x):

b, c, _, _ = x.size()

y = self.avg_pool(x).view(b, c)

y = self.fc(y).view(b, c, 1, 1)

return x * y.expand_as(x)

class Swish(nn.Module):

def forward(self, x):

return x * torch.sigmoid(x)

训练

打开train.py ,在训练之前，我们还要调节一下参数。

parser = argparse.ArgumentParser()

parser.add_argument(‘–trainlist’, default=‘train.txt’)

parser.add_argument(‘–vallist’, default=‘val.txt’)

parser.add_argument(‘–workers’, type=int, help=‘number of data loading workers’, default=0)

parser.add_argument(‘–batchSize’, type=int, default=4, help=‘input batch size’)

parser.add_argument(‘–imgH’, type=int, default=32, help=‘the height of the input image to network’)

parser.add_argument(‘–imgW’, type=int, default=512, help=‘the width of the input image to network’)

parser.add_argument(‘–nh’, type=int, default=512, help=‘size of the lstm hidden state’)

parser.add_argument(‘–niter’, type=int, default=300, help=‘number of epochs to train for’)

parser.add_argument(‘–lr’, type=float, default=0.00005, help=‘learning rate for Critic, default=0.00005’)

parser.add_argument(‘–beta1’, type=float, default=0.5, help=‘beta1 for adam. default=0.5’)

parser.add_argument(‘–cuda’, action=‘store_true’, help=‘enables cuda’, default=True)

parser.add_argument(‘–ngpu’, type=int, default=1, help=‘number of GPUs to use’)

parser.add_argument(‘–encoder’, type=str, default=‘’, help=“path to encoder (to continue training)”)

parser.add_argument(‘–decoder’, type=str, default=‘’, help=‘path to decoder (to continue training)’)

parser.add_argument(‘–experiment’, default=‘./expr/attentioncnn’, help=‘Where to store samples and models’)

parser.add_argument(‘–displayInterval’, type=int, default=100, help=‘Interval to be displayed’)

parser.add_argument(‘–valInterval’, type=int, default=1, help=‘Interval to be displayed’)

parser.add_argument(‘–saveInterval’, type=int, default=1, help=‘Interval to be displayed’)

parser.add_argument(‘–adam’, default=True, action=‘store_true’, help=‘Whether to use adam (default is rmsprop)’)

parser.add_argument(‘–adadelta’, action=‘store_true’, help=‘Whether to use adadelta (default is rmsprop)’)

parser.add_argument(‘–keep_ratio’,default=True, action=‘store_true’, help=‘whether to keep ratio for image resize’)

parser.add_argument(‘–random_sample’, default=True, action=‘store_true’, help=‘whether to sample the dataset with random sampler’)

parser.add_argument(‘–teaching_forcing_prob’, type=float, default=0.5, help=‘where to use teach forcing’)

parser.add_argument(‘–max_width’, type=int, default=129, help=‘the width of the featuremap out from cnn’)

parser.add_argument(“–output_file”, default=‘deep_model.log’, type=str, required=False)

opt = parser.parse_args()

trainlist：训练集，默认是train.txt。

vallist：验证集路径，默认是val.txt。

batchSize：批大小，根据显存大小设置。

imgH：图片的高度，crnn模型默认为32，这里不需要修改。

imgW：图片宽度，我在这里设置为512。

keep_ratio：设置为True，设置为True后，程序会保持图片的比率，然后在一个batch内统一尺寸，这样训练的模型精度更高。

lr：学习率，设置为0.00005，这里要注意，不要太大，否则不收敛。

其他的参数就不一一介绍了，大家可以自行尝试。

运行结果：

训练完成后，可以在expr文件夹下面找到模型。

推理

在推理之前，我们还需要确认最长的字符串，新建getmax.py,添加如下代码：

import os

import json

image_path_amount = “./data/train/amount/images”

image_path_date = “./data/train/date/images”

amount_list = os.listdir(image_path_amount)

new_amount_list = []

for filename in amount_list:

new_amount_list.append(image_path_amount + “/” + filename)

date_list = os.listdir(image_path_date)

new_date_list = []

for filename in date_list:

new_date_list.append(image_path_date + “/” + filename)

amount_json = “./data/train/amount/gt.json”

date_json = “./data/train/date/gt.json”

with open(amount_json, “r”, encoding=‘utf-8’) as f:

load_dict_amount = json.load(f)

with open(date_json, “r”, encoding=‘utf-8’) as f:

load_dict_date = json.load(f)

all_list = new_amount_list + new_date_list

from sklearn.model_selection import train_test_split

all_dic = {}

all_dic.update(load_dict_amount)

all_dic.update(load_dict_date)

maxLen = 0

for i in all_dic.values():

if (len(i) > maxLen):

maxLen = len(i)

print(maxLen)

运行结果：28

将test.py中的max_length设置为28。

修改模型的路径，包括encoder_path和decoder_path。

encoder_path = ‘./expr/attentioncnn/encoder_22.pth’

decoder_path = ‘./expr/attentioncnn/decoder_22.pth’

修改测试集的路径：

for path in tqdm(glob.glob(‘./data/测试集/date/images/*.jpg’)):

text, prob = test(path)

if prob<0.8:

count+=1

result_dict[os.path.basename(path)] = {

‘result’: text,

‘confidence’: prob

}

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

2401_84139192

关注

28
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
2024AIWIN 手写体 OCR 识别竞赛总结（任务一）(2)

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。修改模型的路径，包括encoder_path和decoder_path。
复制链接

扫一扫