本文分析CRAFT最重要的网络结构和训练数据。
其余参考:CRAFT字符检测算法和SynthText合成文本数据集
CRAFT网络结构
参考文件:craft.py
逻辑代码:
- 输入x,[1, 3, 1280, 960],即输入图像尺寸
- basenet是
vgg16_bn
,输出5个中间结果的特征图- 0: 1x1024x80x60,即缩放16倍
- 1: 1x512x80x60,即缩放16倍
- 2: 1x512x160x120,即缩放8倍
- 3: 1x256x320x240,即缩放4倍
- 4: 1x128x640x480,即缩放2倍
- 输出5个特征图,0~4特征图从小到大
- 第1次up:0+1=[1x1536x80x60],降低通道至256:[1x256x80x60],即upconv1操作;
- 第2次up:
- 反卷积操作,[1x256x80x60] -> [1x256x160x120],即F.interpolate操作;
- 降低通道:[1x256x160x120]+[1x512x160x120]=[1x768x160x120],降低通道至128:[1x128x160x120],即upconv1操作
- 第3次up、第4次up与第2次相同&#x