EAST文本检测算法(1704.03155.pdf)
1704表明2017年4月发表
解决的问题Question
- 多方向文本检测
- 模型复杂阶段多、速度慢
- 精度低
创新点Idea
- 设计了一个简洁的模型结构:全卷积、不包括冗余和缓慢的中间步骤
模型结构
backbone+U型结构+预测层(得分,2点加倾斜角度/4点)
细节与经典句子
细节
使用FPN(U型结构),
生成标签时往内收缩0.3的长宽
得分损失–平衡交叉熵损失:
两点损失–IOU损失
倾斜角度损失–1-cos(o1-o2)
四点损失–八个数对应差的绝对值。
非文本像素数目/全部像素数目
Locality-Aware NMS:合并框框,而不是去除,遍历每一个框,如果能和前面合并就合并,否则把前面的加入到ans,把这个作为当前准备合并的框
句子
- The core of text detection is the design of features to distinguish text from backgrounds. Traditionally,features are manually designed to capture the properties of scene text, while in deep learning based methods effective features are directly learned from training data.
- In most state-of-the-art detection pipelines, training images are carefully processed by balanced sampling and hard negative mining to tackle with the imbalanced distribution of target objects
实验
设置了三个backbone,PVANET,PVANET2x,VGG16。
1、展示特征图
2、展示结果
3、三个数据集三个backbone两种输出层比较结果精度。
4、比较速度fps
总结与展望
1、以后可以研究弯曲文本
2、检测识别集成
3、进军一般目标检测