EAST论文总结

架构简单,专注于loss函数和网络架构的设计。在ICDAR15, COCO-Text,MSRA-TD500上进行实验,表明体术的方法在准确率和效率上都最为先进,在ICDAR15数据集上,算法实现了F-score 0.7820和13.2的fps在720p的分辨率下。
文本检测任务的核心是设计区分文本和背景的特征。传统方法手工提取特征,深度学习方法直接从训练数据中学习有效的特征。现有方法大多有许多阶段,准确率和效率不佳。
本文中,提出一个快且准确的场景文本检测通道,仅由两个通道构成。通道利用全卷积网络FCN模型直接产生单词或文本行层级的预测,排除中间步骤。可以产生旋转矩形或四边形的预测,接下来通过NMS获得最终结果。
FCN + NMS
旋转矩形 或 四边形 依据特定的应用
本文提出了一个基于深度全卷积神经网络的通道。
方法:方法的关键组成部分是一个神经网络模型,直接预测文本实例的存在和几何形状。模型是一个全卷积神经网络,输出密集的逐像素的单词或文本行的预测。后续处理为在预测的几何形状上进行阈值和NMS处理。
通道:采用了DenseBox的设计,一张图片输入到FCN的网络中,生成像素级的得分和几何预测。
网络需要使用不同层级的特征。采用了一个u形设计来融合特征图。
与DenseBox相同,四个通道表示了像素点到top,right,bottom,left边的偏移量。对于四边形,表示到四个角点的偏移量。
标签生成:score map 分别向内移动0.3ri
score map 类平衡交叉熵 loss function

几何loss 四边形采用IOU loss
几何形状采用 尺度规范化的平滑L1loss
位置感知的NMS
假设临近像素的几何图形往往高度相关,我们提出在行相同的情况下,逐行融合几何图形,我们迭代的将当前几何图形与最后一个遇到的几何图形进行合并。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值