github:GitHub - xinyu-ch/ProgressiveTextDetection
摘要:
设计了一个 2D 渐进式内核,用于描述了渐进式的各种文本区域,它将原真实标签gt转换到0-1的渐进概率分布标签;
还提出了一种新颖的渐进式区域预测网络(PRPN),它具有方向池化,用于预测文本区域的概率分布;
然后后处理算法将预测的文本区域概率分布转换成bounding box输出。
在ICDAR15上F1分数86.0,在CTW1500上的分数81.4.
a为元数据集的标签,
b为2维渐进掩码,从边界到中心像素值从0到1逐渐增加,颜色从蓝到红改变
c为加权损失,更亮的像素代表更大的值
In this paper
设计了一个渐进区域预测网络用于预测文本的二维渐进掩码
基于U-Net,增加了额外的卷积层用于特征提取并且提出了一个方向池化模块用于增加感受野,改进了corner pooling的结构,在水平和垂直方向上收集文本边界之外的特征,以实现更好的回归预测。
设计了新的权重损失,该损失对不同大小样本的损失一样,而且在处理困难负样本和简单负样本不同,是网络高效的集中在困难样本。
方法
主要目的是去寻找一个特定的方法:秒速文本中心到文本边界距离的变化------2D 渐进内核
标签的处理: bouding box -------> 2 D progressive 像素概率图
model:网络PRPN,输出一个通道的像素概率图
损失的计算:网络输出的output和处理后的标签进行计算loss
后处理:Watershed和一个简单的过滤操作,得到bounding box
标签制作
1.计算到边界框的距离(Euclidean distance)
2. 1D高斯函数将像素的距离值映射到 具有高斯属性的概率掩码
图中n为超参数,不同的文本大小有不同的n值
Pipeline
受CornerNet的鼓舞 ,设计了一个方向池化模块来捕捉水平和垂直的方向的视觉特征
使用两个对立的3x3方向池化模块(左、右、上、下),在两个分支中处理第一个 Conv 层的输出特征。然后在通道上进行拼接
采用U-Net设计,可以考虑到低等级的特征,
Loss
因为文本大小不同,小文本在计算positive pixels损失时,可能会影响性能,所以为解决这个问题,来公平对待所有文本实例,第i个文本实力的权重为
,S为一张图像的文本区域总面积,N为文本个数,积极像素权重为
negative loss使用OHEM方法,正:负=1:3,
后处理
二值化输出的概率图,在欧几里德距离方面找到所有最大点吗,利用八个连通域的特征来分析连通分量以实现分水岭算法,生成一系列的分割轮廓,过滤后得到bounding box
实验结果:
在vgg16上做的消融实验