Aggregation Cross-Entropy for Sequence Recognition论文阅读

最新推荐文章于 2022-01-19 20:42:47 发布

农夫山泉2号

最新推荐文章于 2022-01-19 20:42:47 发布

阅读量1.9k

点赞数

分类专栏： ocr 深度学习文章标签： ocr ACE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/97265253

版权

深度学习同时被 2 个专栏收录

84 篇文章 6 订阅

订阅专栏

44 篇文章 6 订阅

订阅专栏

文章目录

摘要
1.简介
2. 相关工作
4. 实验
- 4.1 场景文字识别
- 4.1.3 实验结果

摘要

1.简介

最近出现的CTC[13]和注意机制[1]通过绕过输入图像与其对应标签序列之间的先验对齐，显著缓解了这种顺序训练问题。但是CTC有大量的计算消耗，此外，CTC很难处理2D的序列问题。
attention需要额外的标签和计算消耗，同时很难从零开始学习，此外attention对长序列的效果不好。attention容易出现错位问题，对模型的精度和计算消耗很大。
attention能够处理2D的问题，但是计算消耗太大了。

于是提出了ACE，示意图：
在这里插入图片描述
主要分三步：
(1)各类别概率沿时间维数的累加;(2)将累加结果归一化，并将标签标注为所有类的概率分布;(3)利用交叉熵比较两种概率分布。

优点

计算更快，更少的内存消耗
和CTC和Attention比较效果还行
支持2D寻列识别
不需要一一对应的序列标签进行监督

2. 相关工作

4. 实验

4.1 场景文字识别

2Dprediction是按列进行从左到右展开的

4.1.3 实验结果

和CTC的对比，第一个是CTC的结果
在这里插入图片描述

并没有和CTC的收敛速度对比，看了一下，最快也需要200个epoch才能收敛好。
为了验证提出的ACE损失与字符顺序的独立性，我们对四个数据集分别进行了ACE、CTC和attention实验;注释的字符顺序以不同的比例随机打乱。结果：
在这里插入图片描述
ACE它只需要类及其编号来进行监视，完全忽略了字符顺序信息。

2D预测的结果
在这里插入图片描述
特征只用CNN就行，不用LSTM/MDLSTM或注意力模型

农夫山泉2号

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
19
评论
Aggregation Cross-Entropy for Sequence Recognition论文阅读

文章目录摘要1.简介2. 相关工作4. 实验4.1 场景文字识别4.1.3 实验结果摘要1.简介最近出现的CTC[13]和注意机制[1]通过绕过输入图像与其对应标签序列之间的先验对齐，显著缓解了这种顺序训练问题。但是CTC有大量的计算消耗，此外，CTC很难处理2D的序列问题。attention需要额外的标签和计算消耗，同时很难从零开始学习，此外attention对长序列的效果不好...
复制链接

扫一扫

专栏目录

评论 19

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。