**
TextFuseNet: Scene Text Detection with Richer Fused Features
**
利用更丰富的特征融合进行场景文本检测
代码:https://github.com/ying09/TextFuseNet
论文核心思想
贡献一:
提出了一种新的框架——文本融合网络。
提出了两种流程
1、多级特征表示
提出从字符、单词和全局三个层次的特征表示来感知文本,通过将文本分解成单个字符来充分描述文本,同时仍然保持它们的一般语义。
2、多路径融合架构
文本融合网络使用多路径融合架构从不同的层次收集和融合文本的特征,该架构可以有效地对齐和融合不同的表示。
个人通俗理解:
第一个全局语义分割,形成一个二值图特征图
第二个就是包括了detection branch和mask branch两个部分
使用基于候选框的单字符检测以及单词的检测,通过RoIAlign融合第一个语义分割的二值图特征形成单词级分类以及字符级分类
在mask分支中又融合了全局语义分割的特征图生成新的二值图,再根据检测的单词或者字符的分类结果,对这个二值图像素点进行分类输出。
贡献二:
引入了弱监督模型进行单字符学习。
这个在2019年craft算法中已经提出了,就是利用具有单字符标注的数据集synthtext训练,在单词级标注的数据集上进行单字符检测,再学习相应的字符级特征,去适应算法的特征融合。
贡献三:
部分表现SOTA。
论文培训及推理细节
训练使用4GPUs,tesla v100 16G
测试使用1GPU,
同样使用synthtext进行预训练。预训练20个epochs,再在微调数据集上进行弱监督学习。
lr,优化器改变见论文。
推理部分:
根据论文给出的推理步骤,
它只拿了RPN生成前1k个建议通过软NMS挑选出的最终的目标区域,
重点在于
他只拿了单词级分类对应的mask分支输出。
等于字符级的检测,只是用来做特征融合。