2024AIWIN 手写体 OCR 识别竞赛总结（任务一），【架构师必备】

最新推荐文章于 2024-05-11 08:31:57 发布

2401_83621384

最新推荐文章于 2024-05-11 08:31:57 发布

阅读量1k

点赞数 16

分类专栏： 2024年程序员学习文章标签： ocr 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83621384/article/details/137059359

版权

所以我选择的第一个Attention_ocr.pytorch-master.zip，从名字上可以看出这个是加入注意力机制，感觉效果会好一些。

构建数据集

下图是Attention_ocr.pytorch-master.zip自带的数据集截图，从截图上可以看出，数据的格式：“图片路径+空格+标签”。我们也需要按照这样的格式构建数据集。

新建makedata.py文件，插入下面的代码。

import os

import json

#官方给的数据集

image_path_amount = “./data/train/amount/images”

image_path_date = “./data/train/date/images”

#增强数据集

image_path_test=‘./data/gan_test_15000/images/0’

image_path_train=‘./data/gan_train_15500_0/images/0’

amount_list = os.listdir(image_path_amount)

amount_list = os.listdir(image_path_amount)

new_amount_list = []

for filename in amount_list:

new_amount_list.append(image_path_amount + “/” + filename)

date_list = os.listdir(image_path_date)

new_date_list = []

for filename in date_list:

new_date_list.append(image_path_date + “/” + filename)

new_test_list = []

for filename in amount_list:

new_test_list.append(image_path_amount + “/” + filename)

new_train_list = []

for filename in amount_list:

new_train_list.append(image_path_amount + “/” + filename)

image_path_amount和image_path_date是官方给定的数据集路径。

image_path_test和image_path_train是增强的数据集（在后面会讲如何做增强）

创建建立list，保存图片的路径。

amount_json = “./data/train/amount/gt.json”

date_json = “./data/train/date/gt.json”

train_json = “train_data.json”

test_json = “test_data.json”

with open(amount_json, “r”, encoding=‘utf-8’) as f:

load_dict_amount = json.load(f)

with open(date_json, “r”, encoding=‘utf-8’) as f:

load_dict_date = json.load(f)

with open(train_json, “r”, encoding=‘utf-8’) as f:

load_dict_train = json.load(f)

with open(test_json, “r”, encoding=‘utf-8’) as f:

load_dict_test = json.load(f)

四个json文件对应上面的四个list，json文件存储的是图片的名字和图片的标签，把json解析出来存到字典中。

#聚合list

all_list = new_amount_list + new_date_list+new_test_list+new_train_list

from sklearn.model_selection import train_test_split

#切分训练集合和验证集

train_list, test_list = train_test_split(all_list, test_size=0.15, random_state=42)

#聚合字

最低0.47元/天解锁文章

关注

16
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
2024AIWIN 手写体 OCR 识别竞赛总结（任务一），【架构师必备】

所以我选择的第一个Attention_ocr.pytorch-master.zip，从名字上可以看出这个是加入注意力机制，感觉效果会好一些。构建数据集下图是Attention_ocr.pytorch-master.zip自带的数据集截图，从截图上可以看出，数据的格式：“图片路径+空格+标签”。我们也需要按照这样的格式构建数据集。新建makedata.py文件，插入下面的代码。import os#官方给的数据集#增强数据集。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。