【学习记录-街景字符识别】TASK3：字符识别模型

最新推荐文章于 2020-05-26 23:22:33 发布

m0_46704533

最新推荐文章于 2020-05-26 23:22:33 发布

阅读量275

点赞数

文章标签：人工智能卷积神经网络

本文链接：https://blog.csdn.net/m0_46704533/article/details/106347901

版权

街景字符识别-字符识别模型

1.CNN基础和原理
- 1.1 CNN介绍
- 1.2 CNN 发展
2.Pytorch构建CNN模型
小结

本文的任务是构建一个定长字符识别模型。

1.CNN基础和原理

1.1 CNN介绍

全连接神经网络的缺点：
1.图像变大导致色彩数变多，不好解决；
2.不便处理高维度数据。

基于全连接神经网络的缺点，卷积神经网络应运而生。

卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支，在很多领域都表现优异，精度和速度比传统计算学习算法高很多，特别是在计算机视觉领域，是解决图像分类，图像检索，物体检测和语义分割的主流模型。

模型结构图：

在这里插入图片描述
模型包括输入层（Input layer）、卷积层（convolutional layer）、池化层（pooling layer）和输出层（全连接层+softmax layer）。与全连接神经网络的区别在于CNN总有至少一个卷积层，而且卷积层级之间的神经元是局部连接和权值共享，这样的设计大大减少了（w，b）的数量，加快了训练。
上图为LeNet网络结构，是非常经典的字符识别模型。两个卷积层，两个池化层，两个全连接层组成。卷积核都是5*5，stride=1，池化层使用最大池化。
通过多次卷积和池化，CNN的最后一层将输入的图像像素映射为具体的输出。如在分类任务中会转换为不用类别的概率输出，然后计算真是标签与CNN模型预测结果的差异，并通过反向传播更新每层的参数，并在更新完成后再次前向传播，如此反复直到训练完成。
与传统的机器学习模型相比，CNN具有一种端到端的思路，在CNN训练的过程中是直接从图像像素到最终的输出，并不涉及到具体的特征提取和构建模型的过程，也不需要人工的参与。

1.2 CNN 发展

随着网络结构的发展，研究人员最初发现网络模型结构越深、网络参数越多模型的精度更优。比较典型的是AlexNet、VGG、InceptionV3和ResNet的发展脉络。在这里插入图片描述

2.Pytorch构建CNN模型

此模型包括两个卷积层，最后并联6个全连接层进行分类。

import torch
torch.manual_seed(0)
torch.backends.cudnn.deterministic=False
torch.backends.cudnn.benchmark=True

import torchvision.models as models
import torchvision.transforms as transforms
import torchvision.datasets as datasets
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.utils.data.dataset import Dataset

#<div STYLE="page-break-after: always;"></div>
#定义模型
class SVHN_Model1(nn.Module):
    def _init_(self):
        super(SVHN_Model1,self)._init_()
        #CNN提取特征模块
        self.cnn=nn.Sequential(
            nn.Conv2d(3,16,kernel_size=(3,3),stride=(2,2)),
            nn.ReLU(),
            nn.MaxPool2d(2),
            nn.Conv2d(16,32,kernel_size=(3,3),stride=(2,2)),
            nn.ReLU(),
            nn.MaxPool2d(2))
        self.fc1=nn.Linear(32*3*7,11)
        self.fc2=nn.Linear(32*3*7,11)
        self.fc3=nn.Linear(32*3*7,11)
        self.fc4=nn.Linear(32*3*7,11)
        self.fc5=nn.Linear(32*3*7,11)
        self.fc6=nn.Linear(32*3*7,11)
        
    def forward(self,img):
        feat=self.cnn(img)
        feat=feat.view(feat.shape[0],-1)
        c1=self.fc1(feat)
        c2=self.fc1(feat)
        c3=self.fc1(feat)
        c4=self.fc1(feat)
        c5=self.fc1(feat)
        c6=self.fc1(feat)
        return c1,c2,c3,c4,c5,c6
model=SVHN_Model1()

训练代码：

#<div STYLE="page-break-after: always;"></div>
# 损失函数
criterion = nn.CrossEntropyLoss()
#<div STYLE="page-break-after: always;"></div>
# 优化器器
optimizer = torch.optim.Adam(model.parameters(), 0.005)
loss_plot, c0_plot = [], []
#<div STYLE="page-break-after: always;"></div>
# 迭代10个Epoch
for epoch in range(10):
    for data in train_loader:
        c0, c1, c2, c3, c4, c5 = model(data[0])
        loss = criterion(c0, data[1][:, 0]) + \
                criterion(c1, data[1][:, 1]) + \
                criterion(c2, data[1][:, 2]) + \
                criterion(c3, data[1][:, 3]) + \
                criterion(c4, data[1][:, 4]) + \
                criterion(c5, data[1][:, 5])
        loss /= 6
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        loss_plot.append(loss.item())
        c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0])
    print(epoch)

为了追求精度，也可以使用在ImageNet数据集上的预训练模型：

class SVHN_Model2(nn.Module):
    def __init__(self):
        super(SVHN_Model2,self).__init__()
        model_conv=models.resnet18(pretrained=True)#torch.load('resnet18-5c106cde.pth')这里可以更改为这个权重
        model_conv.avgpool=nn.AdaptiveAvgPool2d(1)
        model_conv=nn.Sequential(*list(model_conv.children())[:-1])
        self.cnn=model_conv
        self.fc1=nn.Linear(512,11)
        self.fc2=nn.Linear(512,11)
        self.fc3=nn.Linear(512,11)
        self.fc4=nn.Linear(512,11)
        self.fc5=nn.Linear(512,11)
        
    def forward(self,img):
        feat=self.cnn(img)
        print(feat.shape)
        feat=feat.view(feat.shape[0],-1)
        c0=self.fc1(feat)
        c1=self.fc1(feat)
        c2=self.fc1(feat)
        c3=self.fc1(feat)
        c4=self.fc1(feat)
        
        return c0,c1,c2,c3,c4

小结

本文介绍了CNN以及CNN的发展，并用Pytorch构建了一个简易的CNN模型来完成字符分类任务。

m0_46704533

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【学习记录-街景字符识别】TASK3：字符识别模型

街景字符识别-字符识别模型1.CNN基础和原理1.1 CNN介绍1.2 CNN 发展2.Pytorch构建CNN模型本文的任务是构建一个定长字符识别模型。1.CNN基础和原理1.1 CNN介绍全连接神经网络的缺点：1.图像变大导致色彩数变多，不好解决；2.不便处理高维度数据。基于全连接神经网络的缺点，卷积神经网络应运而生。卷积神经网络（简称CNN）是一类特殊的人工神经网络，是深度学习中重要的一个分支，在很多领域都表现优异，精度和速度比传统计算学习算法高很多，特别是在计算机视觉领域，是解
复制链接

扫一扫