简介
这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。
传统文本识别的方法的缺点
传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正,特征提取,字符建模,解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息,因此一旦出现训练集之外的字体,泛化性就不会很好。解码前需要确定好字符类别的数量,训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。
我们所希望的方法是在训练完之后,测试的时候,能够应对字体的不同,识别不同的语言种类,识别超过训练类别的个数。
我们可以将文本序列看做一个又一个的字符实体。因此作者将识别任务看做一个匹配任务。首先生成一个字符的模板,然后通过这个模板和需要识别的内容进行匹配,来进行识别。
基于匹配方式的文字识别需要两个输入图片。一张图片上包含字典中的所有字符(模板),另一张图片则包含我需要识别的文本内容.他们二者之间计算相似度。然后将最相似的部分作为识别出来的结果。那么通过这种相似度匹配的方式,我们就可以做到在英文字符的数据集上训练,在德文测试集上测试。
one-shot learning
这里的one-shot learing指的是只看见了模板上的字体,然后就能够去匹配这个字体。(针对训练集之外的字体,种类)。这是第一篇做序列级别的one-shot learning的文章。
模型结构
。这个模型主要分为两个部分,一部分是视觉相似编码器,一部分是解码