EAST: An Efficient and Accurate Scene Text Detector
参考:
https://arxiv.org/abs/1704.03155
https://blog.csdn.net/liuxiaoheng1992/article/details/82870923
https://blog.csdn.net/sdlypyzq/article/details/78425128
https://blog.csdn.net/zhangwei15hh/article/details/79899300
https://blog.csdn.net/Lancher_Mo/article/details/77937499
1、介绍:
提出了一个快速准确的场景文本检测方法,包含两个阶段: (1)利用完全卷积网络(FCN)模型,直接产生基于像素级的单词或文本行别预测,(2)产生的文本预测(旋转矩形或四边形),发送到非最大抑制以产生最终结果。
2、网络架构:

模型可以分为三个部分:特征提取器,特征合并分支和输出层。
【特征提取器】(PVANet)最初可以利用一个卷积层和池化层交错的卷积神经网络进行预训练,可以得到四个级别的特征图f1,f2,f3和f4,大小分别是原图的1/32,1/16,1/8和1/4。
【功能合并分支】在特征归并部分,逐步合并他们,在每一个归并阶段,从上一个阶段来的特征图最先进行unpooling,来增倍图的大小,然后与当前特征图级联(就是通道数串联)。然后,利用一个1*1的卷积层减少通道数并减少计算量,接着是一个3*3的卷积层将信息融合,最终产生本归并阶段的结果。在最后一个归并阶段之后,利用一个3*3卷积层产生最终的归并部分的特征图,并输入到输出层。
【输出层】score map大小为原图的1/4通道数为1,每个像素表示对应于原图中像素为文字的概率值,所以值在[0,1]范围内。文中对文本框的定义有两种,一种是旋转矩形(RBOX),另一种是四边形(QUAD)对于RBOX,这个几何图形由4个通道的轴向包围盒(AABB)R和1个通道的旋转角度θ,θ表示像素所在框的倾斜角度,角度范围定义为[-45,45]度。其中4个通道分别表示4个距离(每个像素点到上右下左boundbox边界的距离);对于QUAD Q,使用8个通道表示四边形四个顶点{pi | i<-{1,2,3,4}}到像素位置的坐标变换。由于每一个距离偏移都包含2个数字(δxi, δyi),那么几何输出包含了8个通道。


3、损失函数:
代价函数分两部分,如下,第一部分是分类误差,第二部分是几何误差,文中权衡重要性,λg=1。
![]()
【score map】的损失计算采用class-balanced cross-entropy

这样做可以很实用的处理正负样本不均衡的问题。 其中:

即β=反例样本数量/总样本数量 (balance factor)
【geometry map】的损失计算采用IoU loss,计算方法如下:
![]()

R^⋂R∗∣=wi∗hi计算可以通过下述方法

其中,Rˆ表示预测,R∗表示真实值
![]()
其中θ∗表示预测值,θˆ 表示真实值
提出了一种名为EAST的高效准确的场景文本检测方法,该方法通过完全卷积网络(FCN)直接生成像素级别的文本预测,再通过非最大抑制产生最终结果。网络架构包括特征提取器、特征合并分支及输出层,能够处理旋转矩形和四边形两种文本框形式。

被折叠的 条评论
为什么被折叠?



