- 博客(3)
- 资源 (7)
- 收藏
- 关注
原创 ASTER论文阅读
摘要场景文本识别的一个具有挑战性的方面是处理带有扭曲或不规则布局的文本。特别地,透视文本和弯曲文本在自然场景中是常见的并且难以识别。在这项工作中,我们介绍了ASTER,一种端到端的神经网络模型,包括校正网络和识别网络。校正网络自适应地将输入图像转换为新图像,对其中的文本进行纠正。它由灵活的薄板样条转换(Thin-Plate Spline transformation)提供动力,可处理各种文本不规则,并且无需人工注释即可进行训练。识别网络是注意力序列到序列模型( attentional sequence-t
2021-10-25 08:31:36 326
原创 循环神经网络RNN及其变体
RNN经典的RNN网络如图所示,输入和输出是相等的。Sequence to Sequence在Seq2Seq结构中,编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由解码器Decoder解码。在解码器Decoder解码的过程中,不断地将前一个时刻 [公式] 的输出作为后一个时刻 [公式] 的输入,循环解码,直到输出停止符为止。Attention在Seq2Seq结构中,encoder把所有的输入序列都编码成一个统一的语义向量Context,然后再由Decod
2021-10-21 23:54:14 297
原创 文本识别CTC算法
解决的问题CTC Loss要解决的问题就是当label长度小于模型输出长度时,如何做损失函数。一般做分类时,已有的softmax loss都是模型输出长度和label长度相同且严格对齐,而语音识别或者手写体识别中,无法预知一句话或者一张图应该输出多长的文字,这时做法有两种:seq2seq+attention机制,不限制输出长度,在最后加一个结束符号,让模型自动和gt label对齐;另一种是给定一个模型输出的最大长度,但是这些输出并没有对齐的label怎么办呢,这时就需要CTC loss了。
2021-10-13 09:10:11 1394
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人