EAST是一种高效的单阶段场景文本检测模型,通过直接回归旋转矩形或四边形边界框实现任意方向目标的检测。其设计初衷虽为文本检测,但可扩展至遥感、自动驾驶等领域的旋转目标检测任务。以下从核心原理、技术优化和应用实践三个方面展开解析。
一、核心原理
1. 模型架构
- Backbone:通常采用PVANet或ResNet作为主干网络,提取多尺度特征(如1/8、1/16、1/32下采样特征)。
- 特征融合:通过特征金字塔(FPN)融合不同层级的特征,增强小目标检测能力。
- 检测头:输出两类信息:
- Score Map:像素级分类,判断是否属于目标区域。
- Geometry Map:回归旋转框参数(旋转矩形或四边形坐标)。
2. 旋转框表示方法
- 旋转矩形(RBOX):
- 五参数表示: