Adaptive Text Recognition through Visual Matching稿

最新推荐文章于 2022-01-11 15:35:40 发布

Tyyy`

最新推荐文章于 2022-01-11 15:35:40 发布

阅读量377

点赞数 1

分类专栏：论文文章标签：深度学习

本文链接：https://blog.csdn.net/soulesstitan/article/details/108648344

版权

简介这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。传统文本识别的方法的缺点传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正，特征提取，字符建模，解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息，因此一旦出现训练集之外的字体，泛化性就不会很好。解码前需要确定好字符类别的数量，训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。我们所希望的方

摘要由CSDN通过智能技术生成

简介

这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。

传统文本识别的方法的缺点

传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正，特征提取，字符建模，解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息，因此一旦出现训练集之外的字体，泛化性就不会很好。解码前需要确定好字符类别的数量，训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。
我们所希望的方法是在训练完之后，测试的时候，能够应对字体的不同，识别不同的语言种类，识别超过训练类别的个数。
我们可以将文本序列看做一个又一个的字符实体。因此作者将识别任务看做一个匹配任务。首先生成一个字符的模板，然后通过这个模板和需要识别的内容进行匹配，来进行识别。
基于匹配方式的文字识别需要两个输入图片。一张图片上包含字典中的所有字符（模板），另一张图片则包含我需要识别的文本内容.他们二者之间计算相似度。然后将最相似的部分作为识别出来的结果。那么通过这种相似度匹配的方式，我们就可以做到在英文字符的数据集上训练，在德文测试集上测试。

one-shot learning

这里的one-shot learing指的是只看见了模板上的字体，然后就能够去匹配这个字体。（针对训练集之外的字体，种类）。这是第一篇做序列级别的one-shot learning的文章。

模型结构

。这个模型主要分为两个部分，一部分是视觉相似编码器，一部分是解码

最低0.47元/天解锁文章

Tyyy`

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Adaptive Text Recognition through Visual Matching稿

简介这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。传统文本识别的方法的缺点传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正，特征提取，字符建模，解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息，因此一旦出现训练集之外的字体，泛化性就不会很好。解码前需要确定好字符类别的数量，训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。我们所希望的方
复制链接

扫一扫