Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

       介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单,通用性更高

3.充足的实验给出有效结论

二、Introduction

       介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新

三、The Proposed Network Architecture

       提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引

RNN layer: 

     1. Ut,c 表示at权重值和图片的特征值对应相乘加和

     2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)

      3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

      4. RNN模型的输出: Ot, St

      5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

四、Dataset

        主要介绍两种数据集-FSNS Dataset、Google Street View 

五、Experiment

        统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示

六、Conclusion

        结论及展望

 关键点: 

        1. 特征提取: CNN

        2. 语言模型: RNN

        3. 自回归: Attention

创新点:

        1. 基于Attention机制实现OCR模型

        2. 模型自回归

其发点:

        对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音

七、Code

      https://github.com/tensorflow/models/tree/master/research/attention_ocr

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值