【Paper Reading】【EAST: An Efficient and Accurate Scene Text Detector】

最新推荐文章于 2024-09-28 14:29:09 发布

surfman777

最新推荐文章于 2024-09-28 14:29:09 发布

阅读量208

点赞数

分类专栏：场景文本检测文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Ocelot777/article/details/104662829

版权

5 篇文章 0 订阅

订阅专栏

采用U-shape，保持上采样分支较小的同时逐渐融合特征图
feature extraction stem：PVANet
- 在ImageNet上与训练的卷积网络
- 四层特征图，大小为输入图片的1/32, 1/16, 1/8, 1/4
- 实验中亦采用VGG16模型，提取pooling-2到pooling-5的特征
feature-merging branch：
每一个merging stage，先将last stage的特征图输入unpooling layer进行double size，然后与当前的特征图串联起来；接下来用conv11 bottleneck减少通道数目和计算量，再用conv33融合信息并输出当前merging stage的结果。最后一个merging stage的结果输出到output layer
output layer：
- 最终输出层包含数个conv1*1操作，将32个通道的特征图整合成单通道分数图Fs和一个多通道几何图Fg(RBOX 或 QUAD)
- RBOX：几何形状用四个通道的axis-aligned bounding box (AABB) R和单通道rotation angle θ表示。其中四通道分别表示像素位置到矩形上右下左边界的距离。
- QUAD：输出为8通道，pi=(Δxi，Δyi)，i∈[1, 4]，表示像素到四个顶点的偏移量