Adaptive Text Recognition through Visual Matching稿

简介  这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。传统文本识别的方法的缺点  传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正,特征提取,字符建模,解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息,因此一旦出现训练集之外的字体,泛化性就不会很好。解码前需要确定好字符类别的数量,训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。  我们所希望的方
摘要由CSDN通过智能技术生成

简介

  这篇文章的目的在于解决文档识别中的文本识别的多样性和泛化性问题。通过视觉匹配的方法来做文本识别。

传统文本识别的方法的缺点

  传统的文本识别的方法一般是由一个编码器加一个序列解码器组成。整个pipeline会包含字符矫正,特征提取,字符建模,解码等模块。这种方式训练的时候是去学习训练集中的字体和纹理的信息,因此一旦出现训练集之外的字体,泛化性就不会很好。解码前需要确定好字符类别的数量,训练完之后的模型只能解码字典中的内容。出现字典外的字符就无法解码。解码器和编码器得一一对应。
  我们所希望的方法是在训练完之后,测试的时候,能够应对字体的不同,识别不同的语言种类,识别超过训练类别的个数。
  我们可以将文本序列看做一个又一个的字符实体。因此作者将识别任务看做一个匹配任务。首先生成一个字符的模板,然后通过这个模板和需要识别的内容进行匹配,来进行识别。
  基于匹配方式的文字识别需要两个输入图片。一张图片上包含字典中的所有字符(模板),另一张图片则包含我需要识别的文本内容.他们二者之间计算相似度。然后将最相似的部分作为识别出来的结果。那么通过这种相似度匹配的方式,我们就可以做到在英文字符的数据集上训练,在德文测试集上测试。

one-shot learning

  这里的one-shot learing指的是只看见了模板上的字体,然后就能够去匹配这个字体。(针对训练集之外的字体,种类)。这是第一篇做序列级别的one-shot learning的文章。

模型结构

  。这个模型主要分为两个部分,一部分是视觉相似编码器,一部分是解码

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值