FOTS端到端OCR论文阅读

最新推荐文章于 2024-07-15 11:00:00 发布

农夫山泉2号

最新推荐文章于 2024-07-15 11:00:00 发布

阅读量669

点赞数

分类专栏： ocr 文章标签： fots ocr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011622208/article/details/96473873

版权

ocr 专栏收录该内容

44 篇文章 6 订阅

订阅专栏

3.2 文字识别部分

采用RoIRotate将文字区域输出为固定高度，不同长度的图片，并保持长宽比不变。示意图如下：
在这里插入图片描述
同时这里采用的是双线性插值方式实现的（有点像roi align）。
同时论文提到将特征映射填充到最大宽度，在损失函数中忽略填充部分。
此外，不像图像分类，文字识别对检测结果非常敏感，一点的检测误差就会切掉几个像素，这对识别网络是非常有害的。所以训练的时候用的是标注数据；测试时采用阈值和NMS提取出文字区域

3.4 文字识别分支

网络结构

采用了VGG式的堆叠方式
池化操作只在高度方向做，宽度方向没有
采用了一层有256个隐含节点的LSTM层
LSTM层和最后输出的线性层之间有dropout
采用CTC作为识别部分的loss函数

3.5 应用细节

用ImageNet上预训练的模型初始化
用Synth800k数据集训练10个epochs
数据增强部分
- 图像的长边resize到[640,2560]之间
- 图像随机旋转[-10,10]
- 高度随机变换比例[0.8,1.2]，宽度不变
- 从原图中随机crop出640×640的区域
困难样本挖掘技术
- 分类：512个难的负样本+512个随机负样本+所有的正样本
- box回归：128个难的正样本+128个随机正样本

这里最关键的就是怎么判定样本的难易程度

4. 实验

在这里插入图片描述
反正就是结果很好，到现在2019-7-19依然很有竞争力。

农夫山泉2号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。