(Paper reading)ACE loss

ACE loss函数简化了文本识别任务,直接处理2D预测,仅需字符和数量的监督。它避免了精确的序列对齐,但可能限制了序列信息的学习。相关工作包括CTC和注意力机制。实现中,2D图像的网络输出对应像素点,通过FCN获取。结论提出疑问,实际效果待验证,探索与序列模型结合的可能性。
摘要由CSDN通过智能技术生成

Abstract

the proposed ACE loss function exhibits two noteworthy properties:

  1. it can be directly applied for 2D prediction by flattening the 2D prediction into 1D prediction as the input
  2. it requires only characters and their numbers in the sequence annotation for supervision

对于第一点,这个似乎可以来解决任意排列的文本,论文中做的是1D和2D,颠覆了之前的先定位后识别的pipeline,看起来确实不错。
对于第二点更少的监督,都有个问题是,如果gt都没有序列信息,那么网络能学习到序列信息吗?ACE loss让网络失去了处理序列信息的能力吗?

Related Work

  • Connectionist temporal classification: CNN-LSTM-CTC
  • Attention mechanism: use attention mechansim locate the character.

Aggregation Cross-Entropy

对于识别任务,loss函数可以抽象成下面的形式 S S S 为标注, I I I 为输入, ω \omega ω为网络参数, Q Q Q 训练数据。
L ( ω ) = − ∑ ( I , s ) ∈ Q l o g P ( S ∣ I ; ω ) = − ∑ ( I , S ) ∈ Q ∑ l = 1 L l o g P ( S l ∣ l ; ω ) L(\omega)=-\sum_{(I,s)\in Q}logP(S\mid I;\omega)\\ =-\sum_{(I,S)\in Q}{\sum_{l=1}^{L}logP(S_l\mid l;\omega)} L(ω)=

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值