摘要
1.简介
最近出现的CTC[13]和注意机制[1]通过绕过输入图像与其对应标签序列之间的先验对齐,显著缓解了这种顺序训练问题。但是CTC有大量的计算消耗,此外,CTC很难处理2D的序列问题。
attention需要额外的标签和计算消耗,同时很难从零开始学习,此外attention对长序列的效果不好。attention容易出现错位问题,对模型的精度和计算消耗很大。
attention能够处理2D的问题,但是计算消耗太大了。
于是提出了ACE,示意图:
主要分三步:
(1)各类别概率沿时间维数的累加;(2)将累加结果归一化,并将标签标注为所有类的概率分布;(3)利用交叉熵比较两种概率分布。
优点
- 计算更快,更少的内存消耗
- 和CTC和Attention比较效果还行
- 支持2D寻列识别
- 不需要一一对应的序列标签进行监督
2. 相关工作
4. 实验
4.1 场景文字识别
2Dprediction是按列进行从左到右展开的
4.1.3 实验结果
和CTC的对比,第一个是CTC的结果
并没有和CTC的收敛速度对比,看了一下,最快也需要200个epoch才能收敛好。
为了验证提出的ACE损失与字符顺序的独立性,我们对四个数据集分别进行了ACE、CTC和attention实验;注释的字符顺序以不同的比例随机打乱。结果:
ACE它只需要类及其编号来进行监视,完全忽略了字符顺序信息。
2D预测的结果
特征只用CNN就行,不用LSTM/MDLSTM或注意力模型