街景字符-字符识别baseline模型

最新推荐文章于 2022-10-18 14:49:21 发布

qq_28809935

最新推荐文章于 2022-10-18 14:49:21 发布

阅读量307

点赞数

分类专栏：数据处理文章标签： python 深度学习

本文链接：https://blog.csdn.net/qq_28809935/article/details/106365967

版权

数据处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

运行官网论坛给出的baseline代码：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.2ce832bc6BfoeY&postId=108342

思路：利用图片和label标记，把每个图的结果对应为出5个数字之内的数字猜测，网络的输出为（pic_num,5,11)的tensor，其中5对应猜测的长度，11对应0-9个数字和背景数字。

依据：利用python中的dict统计标签中的预测数据（mchar_val.json）的长度可以得到如下结果，发现预测图片中的数字长度在5以内，所以可以用定长的方法：

torch.utils.data.DataLoader函数：数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。在训练模型时使用到此函数，用来把训练数据分成多个小组，此函数每次抛出一组数据。直至把所有的数据都抛出。

torch.utils.data.DataLoader（ 
    dataset，#数据加载 
    batch_size = 1，#批处理大小设置 
    shuffle = False，#是否打乱顺序读取数据
    sampler = None，#指定数据加载中使用的索引/键的序列 
    batch_sampler = None，#和sampler类似
    num_workers = 0，#是否进行多进程加载数据设置 
    collate_fn = None，#是否合并样本列表以形成一小批
    Tensor pin_memory = False，#如果True，数据加载器会在返回之前将Tensors复制到CUDA固定内存
    drop_last = False，
    timeout = 0，
    worker_init_fn = None ）

model中的nn.Linear函数用法：

对应源代码中：

train_loader = torch.utils.data.DataLoader(
    SVHNDataset(train_path, train_label,
                transforms.Compose([
                    transforms.Resize((64, 128)),
                    transforms.RandomCrop((60, 120)),
                    transforms.ColorJitter(0.3, 0.3, 0.2),
                    transforms.RandomRotation(10),
                    transforms.ToTensor(),
                    transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])),
    batch_size=1,
    shuffle=True,
    # num_workers=10,
)



for i, (input, target) in enumerate(train_loader):
     。。。

 nn.Linear函数：
 self.fc1 = nn.Linear(512, 11)
 c1 = self.fc1(feat)

将代码移植到服务器上训练，并将结果提交，得到如下结果。

想法：该模型没有用到数据标签中的数字定位坐标，后续可以考虑怎么更好的利用坐标。

qq_28809935

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
街景字符-字符识别baseline模型

运行官网论坛给出的baseline代码：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.2ce832bc6BfoeY&postId=108342思路：把每个图的结果对应为出5个数字之内的数字猜测。torch.utils.data.DataLoader函数：数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。在训练模型时使用到此函数，用来把训练数据分成多个小组，此函数每次抛出一组数据。直
复制链接

扫一扫