Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

最新推荐文章于 2024-04-25 10:04:07 发布

BUPT-WT

最新推荐文章于 2024-04-25 10:04:07 发布

阅读量844

点赞数 1

分类专栏： Paper OCR模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/118653672

版权

Paper 同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单，通用性更高

3.充足的实验给出有效结论

二、Introduction

介绍当前OCR领域研究的主流方法，分别有不同的缺点，文末提出模型优点及创新

三、The Proposed Network Architecture

提出OCR模型分模块介绍，包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征，然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型，主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示，i,j表示图像上的位置，c表示channel的索引

RNN layer:

1. Ut,c 表示at权重值和图片的特征值对应相乘加和

2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值与参数矩阵对应相乘 ➕ t-1时刻的Ut-1,c与参数矩阵的乘积(下面公式2)

3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

4. RNN模型的输出: Ot, St

5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值，值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

四、Dataset

主要介绍两种数据集-FSNS Dataset、Google Street View

五、Experiment

统领全文、再次重申提出的attention模型优势，实验结果表明使用location aware attention可以提升9个百分点，并且证明了特征提取网络深度对准确率的影响，最后进行错误分析以及可视化展示

六、Conclusion

结论及展望

关键点:

1. 特征提取: CNN

2. 语言模型: RNN

3. 自回归: Attention

创新点:

1. 基于Attention机制实现OCR模型

2. 模型自回归

其发点:

对于图像特征提取而言，网络深度不是越深越好，过于深反而会引入噪音

七、Code

https://github.com/tensorflow/models/tree/master/research/attention_ocr

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。本文主要结构如下:一、Abstract 介绍提出attention-based OCR模型的优势1. 论文提出基于attention模型取得更高的准确率2. 模型结构简单，通用性更高3.充足的实验给出有效结论二、Introduction 介绍当前OCR领域研究的主流方法，分别有不同的缺点，文末提出模型优点及创新三、The Proposed Netw...
复制链接

扫一扫

专栏目录

BUPT-WT CSDN认证博客专家 CSDN认证企业博客

码龄7年

793: 原创

12万+: 周排名

70万+: 总排名

61万+: 访问

: 等级

1万+: 积分

362: 粉丝

258: 获赞

100: 评论

1123: 收藏

私信

关注

分类专栏

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。