今天来谈一谈对Textmountain的个人理解(如有不准确的地方欢迎读者指正):
这篇论文的思想很新颖,将之前的binary文本分割变为text center-border probability (TCBP),充分利用文本信息内部的过度关系,同时预测了指向文本中心的向量TCD帮助文本实例更好地找到文本中心。
-
主要思想:FCN+充分利用文本边界-中心信息,进行文本实例的分割,推理阶段:每个在山脚的像素都要寻找一条去山顶的路径,这个过程同时可以并行执行。
-
名词简介:与先前的把它当做二分类任务不同,作者预测文本中心-边界概率(TCBP)以及文本中心方向(TCD),
-
TCBP就像一个山一样(山峰是中心,山脚是边界)。 山顶可以很容易地分离文本实例(通过语义分割),而它上升的方向可以给山脚提供一个向上攀爬路径(TCD)
-
TCD可以很好地帮助属于这个文本的像素更好的归属过去。
-
-
方法步骤:
-
首先设置一个阈值,从TCBP和TS产生文本中心实例图和文本边界图
-
用TS计算每个文本中心实例的平均score(文本中心图可以很好地分离文本,而TS不一定)
-
每个山脚的像素点通过TCBP上升的方向或者TCD的方向找到它属于的山峰,找到一个山峰之后,该点属于这个文本。
-
-
TS模块:难负样本挖掘+交叉熵 1:3
-
TCBP(sigmoid [0,1])
-
虽然之前有二分类,但作者认为这样的标注太绝对了,有的时候对于边界和中心的分界不够准确
-
TCBP里面有更多的信息可以用:比如概率的上升方向
-
标注简单:只用垂线去做label
-
-
TCD
-
指向它属于的中心
-
点离中心越远、推力越强
-
两条相邻的文本线虽然可能有相同的TCBP但是会有完全不同的TCD(可以帮助分离相邻文本线)
-
归一化:只需vector的方向
-
-
Group in parallel(预测每个山脚像素属于哪个山峰):
-
TCBP上升的方向+TCD,TCBP设置阈值0.6
-
首先生成TCBP和TCD的有向图:TCBP八邻域,TCD量化方向
-
有向图生成之后:每个border的像素点沿着有向图爬到顶点,然后把它自己喷上相应的颜色。
-
并行处理,快速(山脚到达半山腰,半山腰已到山顶,那么山脚的点可以直接涂上半山腰的点)
-
算法
-
-
-
Implementation Details
-
SGD
-
BN
-
FPN双线性插值上采样
-
MLT预训练模型
-
数据增强
-
随机旋转角度
-
-
贡献点
-
提出了TS TCBP TCD,TCBP能更好地分离文本线,TCD能帮助TCBP训练的更好。
-
可以很好地处理长、多方向、弯曲的文本。
-
提出一个并行的组合算法,能促进后处理过程。
-
在矩形或者弯曲的上面都达到很好的效果。
-
-
好处
-
没有定义文本角度,对角度鲁棒,也可以处理弯曲的
-
不需要感受野的限制,没有角度的模糊表达。不定义顶点,而是很好地利用文本的shape(走向)
-
长、多方向、弯曲的文本。
-
-
experiments
-
RCTW-17:18w 中文数据集
-
SCUT-CTW1500 新开源曲线文本数据集
-