（论文笔记）TextMountain: Accurate Scene Text Detection via Instance Segmentation

最新推荐文章于 2022-09-01 23:59:59 发布

Yuki.Lemon

最新推荐文章于 2022-09-01 23:59:59 发布

阅读量1.6k

点赞数 3

文章标签：文本检测场景文本检测 textmountain 概率图

本文链接：https://blog.csdn.net/Diliduluw/article/details/89257984

版权

今天来谈一谈对Textmountain的个人理解（如有不准确的地方欢迎读者指正）：

这篇论文的思想很新颖，将之前的binary文本分割变为text center-border probability （TCBP），充分利用文本信息内部的过度关系，同时预测了指向文本中心的向量TCD帮助文本实例更好地找到文本中心。

主要思想：FCN+充分利用文本边界-中心信息，进行文本实例的分割，推理阶段：每个在山脚的像素都要寻找一条去山顶的路径，这个过程同时可以并行执行。
名词简介：与先前的把它当做二分类任务不同，作者预测文本中心-边界概率（TCBP）以及文本中心方向（TCD），
- TCBP就像一个山一样（山峰是中心，山脚是边界）。山顶可以很容易地分离文本实例（通过语义分割），而它上升的方向可以给山脚提供一个向上攀爬路径（TCD）
- TCD可以很好地帮助属于这个文本的像素更好的归属过去。
方法步骤：
- 首先设置一个阈值，从TCBP和TS产生文本中心实例图和文本边界图
- 用TS计算每个文本中心实例的平均score（文本中心图可以很好地分离文本，而TS不一定）
- 每个山脚的像素点通过TCBP上升的方向或者TCD的方向找到它属于的山峰，找到一个山峰之后，该点属于这个文本。
TS模块：难负样本挖掘+交叉熵 1:3
TCBP（sigmoid [0,1]）
- 虽然之前有二分类，但作者认为这样的标注太绝对了，有的时候对于边界和中心的分界不够准确
- TCBP里面有更多的信息可以用：比如概率的上升方向
- 标注简单：只用垂线去做label
TCD
- 指向它属于的中心
- 点离中心越远、推力越强
- 两条相邻的文本线虽然可能有相同的TCBP但是会有完全不同的TCD（可以帮助分离相邻文本线）
- 归一化：只需vector的方向
Group in parallel（预测每个山脚像素属于哪个山峰）：
- TCBP上升的方向+TCD，TCBP设置阈值0.6
- 首先生成TCBP和TCD的有向图：TCBP八邻域，TCD量化方向
- 有向图生成之后：每个border的像素点沿着有向图爬到顶点，然后把它自己喷上相应的颜色。
  - 并行处理，快速（山脚到达半山腰，半山腰已到山顶，那么山脚的点可以直接涂上半山腰的点）
  - 算法
Implementation Details
- SGD
- BN
- FPN双线性插值上采样
- MLT预训练模型
- 数据增强
- 随机旋转角度
贡献点
- 提出了TS TCBP TCD，TCBP能更好地分离文本线，TCD能帮助TCBP训练的更好。
- 可以很好地处理长、多方向、弯曲的文本。
- 提出一个并行的组合算法，能促进后处理过程。
- 在矩形或者弯曲的上面都达到很好的效果。
好处
- 没有定义文本角度，对角度鲁棒，也可以处理弯曲的
- 不需要感受野的限制，没有角度的模糊表达。不定义顶点，而是很好地利用文本的shape（走向）
- 长、多方向、弯曲的文本。
experiments
- RCTW-17：18w 中文数据集
- SCUT-CTW1500 新开源曲线文本数据集

Yuki.Lemon

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
16
评论
（论文笔记）TextMountain: Accurate Scene Text Detection via Instance Segmentation

今天来谈一谈对Textmountain的个人理解（如有不准确的地方欢迎读者指正）：这篇论文的思想很新颖，将之前的binary文本分割变为text center-border probability （TCBP），充分利用文本信息内部的过度关系，同时预测了指向文本中心的向量TCD帮助文本实例更好地找到文本中心。主要思想：FCN+充分利用文本边界-中心信息，进行文本实例的分割，推理阶段...
复制链接

扫一扫