【文字识别】GTC: Guided Training of CTC论文阅读

地址:论文
主要思路: 将attention和ctc两种方式进行融合,利用attention对ctc的对齐进行监督和引导,同时,在ctc分支中加入GCN图卷积神经网络提高模型表达能力。

简介

为了克服CTC的局限性,我们必须两个动机:(1)学习更好的特征表示从更有效的引导和(2)建立label和局部特征的联系。
模型
模型示意图如下所示:
在这里插入图片描述
来自强大网络的编码器可以学习更好的对齐和特征表示,其中的特征映射更容易解码。因此,CTC模型从指导中学习,变得更加有效。
CTC在解码的时候,一个label可能有多次输出。我们假设相邻的时间步长具有补充特征,并且在特征序列中存在一定的相关性。于是在这里引入了GCN模块,学习局部特征的联系。

方法

CTC解码的方法具有一定的随机性,如:label为‘AB’,如果有3个step,CTC的解码可能为:‘A-B’ or ‘-AB’ or ‘AB-’ or ‘AAB’ or ‘ABB’,这样会影响特征的特征和label的对齐效果。所以才引入了一个attentio 分支,来优化STN(矫正网络)和resnet(特征提取网络)两个部分。

结果

在这里插入图片描述

分析

  1. 利用CTC来对attention model进行监督引导,实验效果发现没有前面的方案好。
    在这里插入图片描述
  2. GTC方案的矫正网络部分有更好的矫正效果
    在这里插入图片描述
  3. 更好的局部相关性
    将距离矩阵和相似度矩阵相乘
    在这里插入图片描述

总结

  • 利用attention分支对矫正网络和特征提取网络进行一定的监督作用
  • 在crrn分支中加入GCN,加强序列特征局部的学习。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值