一、论文
(16)Text-Attentional Convolutional Neural Network for Scene Text Detection
https://arxiv.org/abs/1604.02878
二、论文笔记
1、简介
这是一篇关于图片是否包含文字区域的二分类的论文
1、背景
(1)、文字区域只占整个图片一个很小的区域,但是图片的背景相对复杂,这样就增加了此项工作的难度
2、创新点
(1)、自己设计了一个专门针对此任务的 Text-CNN
三层卷积,两层全连接层,第二层卷积层后面接了一个池化层,全连接层后面接两个分类的任务,第二个卷积层后面接了反卷积,反卷积到输入大小的map,做mask 损失计算
(2)、多任务学习,多个监督信息,辅助任务帮助提升主任务的准确度
a)、文字区域位置监督
b)、文字类型监督,eg. A 、B
c)、是否文字区域监督
(3)、重新做了一个CE-MSERs(文本的字母,文字检测器)
3、细节
(1)、输入不是整个图片,而是图片的一块(R 32×32×3)
(2)、文字区域的监督是和出入一样的mask
(3)、辅助任务都是只在训练阶段才有的,inference 时只有主任务
(4)、训练过程:
如果三个任务一起训练,因为监督信息不同,收敛速度不同,因此效果不好,这里本论文尝试的是,先将区域位置监督和文字类型一起训练一定的轮次之后,然后再将文字区域位置训练停掉,然后把文字类型的任务和是否文字区域的监督一起训练。
(5)、整个任务的流程,先使用CE-MSERs把图片里的文字,字母一个个的检测出来,然后将检测出来的候选框,送入到txt-cnn里边区分是否确实是文本(vs 背景),然后剩余的工作,和其他一样
5、实验细节
(1)、通过可视化神经网络中间的feature map 验证模型是否有效果