FOTS端到端OCR论文阅读

3.2 文字识别部分


采用RoIRotate将文字区域输出为固定高度,不同长度的图片,并保持长宽比不变。示意图如下:
在这里插入图片描述
同时这里采用的是双线性插值方式实现的(有点像roi align)。
同时论文提到将特征映射填充到最大宽度,在损失函数中忽略填充部分。
此外,不像图像分类,文字识别对检测结果非常敏感,一点的检测误差就会切掉几个像素,这对识别网络是非常有害的。所以训练的时候用的是标注数据;测试时采用阈值和NMS提取出文字区域

3.4 文字识别分支


  • 网络结构
    在这里插入图片描述
    采用了VGG式的堆叠方式
    池化操作只在高度方向做,宽度方向没有
    采用了一层有256个隐含节点的LSTM层
    LSTM层和最后输出的线性层之间有dropout
    采用CTC作为识别部分的loss函数

3.5 应用细节

  • 用ImageNet上预训练的模型初始化
  • 用Synth800k数据集训练10个epochs
  • 数据增强部分
    • 图像的长边resize到[640,2560]之间
    • 图像随机旋转[-10,10]
    • 高度随机变换比例[0.8,1.2],宽度不变
    • 从原图中随机crop出640×640的区域
  • 困难样本挖掘技术
    • 分类:512个难的负样本+512个随机负样本+所有的正样本
    • box回归:128个难的正样本+128个随机正样本

这里最关键的就是怎么判定样本的难易程度

4. 实验

在这里插入图片描述
反正就是结果很好,到现在2019-7-19依然很有竞争力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值