【论文解读】【文字检测】SegLink

最新推荐文章于 2024-04-17 10:04:56 发布

智能血压计

最新推荐文章于 2024-04-17 10:04:56 发布

阅读量635

点赞数 5

分类专栏：图像识别 OCR 文字检测文章标签：神经网络深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lz867422770/article/details/109161532

版权

图像识别同时被 3 个专栏收录

15 篇文章 1 订阅

订阅专栏

11 篇文章 3 订阅

订阅专栏

11 篇文章 1 订阅

订阅专栏

Detecting Oriented Text in Natural Images by Linking Segments

一、作者

二、主要思想

将文本检测的全局问题拆分成两个局部可检测元素：segments和links；然后使用这两个元素合并成为bbox。

三、Overview

3.1 优势：

- 适用于任意长度文本，任意方向的文本

- 速度快

3.2 与SSD的不同

- SSD直接预测bbox

- Seglink自底向上检测2种类型元素

四、Segment Linking

4.1 网络架构

- backbone为VGG16的conv1到pool5

- 替换fc6、fc7为conv6、conv7

- 外加一些额外的卷积层：conv8_1到conv11（更深的层具有更大的感受野）

- 使用6个卷积的输出做两类元素的预测器，分别为：conv43, conv7, conv82, conv92, conv102和conv11，成为l1到l6（特征图缩小的原因是maxpooling的使用）

1）Segment Detection

- segments表示为：s= (xs, ys, ws, hs, θs)，计算方式为通过距离默认框的物理偏移和置信度

- 一个默认框及其置信度、偏移量都强绑定到当前特征图

- 假设一个第l层特征图的x, y位置的像素对应的默认框坐标为xa, ya，计算公式为公式（1），其中wI、hI为图片的尺寸。

- 默认框的尺寸设置为al*al，al理应被设置为l层的感受野尺寸，按照经验为：

- 对于一个segment 检测，卷积预测器输出7个通道。其中，前2个通道代表置信度，后5个通道代表偏移量(∆xs,∆ys,∆ws,∆hs,∆θs)；因此一个segment被表示为公式(2-6)

2）Within-Layer Link Detection

- link不仅能指示两个segments的连接，也能确定出哪些相距较近的不应该被连接的segments的连接

- 如图3所示，定义within-layer neighbors为8连接的区域，如公式（7）所示，因此输出的channel数量为2*8=16个

3）Cross-Layer Link Detection

- 需要该link的原因：l1-l6会对同一文本区域同时预测出不同的segments，造成冗余

- 通过基于maxpooling层的下采样，l1到l6每层特征图尺寸都缩小1倍

- 每个segment具有4个跨层cross-layer link，对应到其前一特征层的感受野的位置，如公式（8）所示，因此输出为8通道。

- cross-layer link存在与l2到l6，因为l1（conv4_3）不存在前层特征层

- 通过cross-layer links，后处理可以讲不同尺度的特征预测的segments连接起来

4) Outputs of a Convolutional Predictor

- 如图4，一个卷积预测器的输出为31通道（l1为23通道），最终经过softmax即可输出

4.2 Segments和links的结合

- 对segments和links使用不同的阈值进行过滤，分别为α和β

- 将segments看作结点，将linksks看作边，构造一个图

- 使用DFS（深度优先）算法进行连通区域的生成

- 对于上步产出的连通区域B，使用Alg1来结合生成文本框。其实就是1）计算平均角度；2）计算平均的中心是的l2距离最小；3）找出所有segments的中心到该中心和角度构成的直线的垂直投影；4）找到最长距离和最宽距离，计算bbox

五、训练

5.1 GT生成

- gt包含3个部分：1）所有默认框的置信度标签；2）到默认框的偏移量；3）within-layer links和cross-layer links

- 只有单图只有1个bbox的情况：默认框被标注为正样本的两个条件：1）默认框的中心在文字框内部；2）默认框尺寸al与文字高度h满足：max(al/h, h/al)<=1.5。否则，默认框被标记为负样本。

- 单图多bbox的情况：如果不满足上述两点，被标记为负样本；否则被标记为正样本并匹配到最相近尺寸的文字框中。

- 根据默认框及其匹配的文字框计算offsets，分为两步：1）计算gt-segement的中心xs、ys，具体计算过程如图5；2）根据公式（2-6）计算偏移量。

- link设置为正样本的条件为：1）所连接的默认框均为正样本；2）两个默认框指向同一文本行

5.2 优化

2）损失函数

分为三个部分：segment分类；offsets回归；link分类。

具体如公式（10）所示，其中Ns是正默认框的数量，用来做归一化，Nl是正的links的数量，也用来做归一化，分类损失使用softmax loss，回归损失使用Smooth L1损失，λ1和λ2都设置为了1

2）Online Hard Negative Mining

这部分是直接使用在线负样本挖掘算法，保持正负样本比例1:3

3) Data Augmentation

使用类似SSD和YOLO的数据增强策略

六、一些效果可视化

七、一些结论：

7.1 局限

1）两个阈值需要手动设置

2）对于打空格预测不好，如图8

智能血压计

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【论文解读】【文字检测】SegLink

Detecting Oriented Text in Natural Images by Linking Segments一、作者二、主要思想将文本检测的全局问题拆分成两个局部可检测元素：segments和links；然后使用这两个元素合并成为bbox。三、Overview3.1 优势：- 适用于任意长度文本，任意方向的文本- 速度快3.2 主要架构- 使用VGG16作为backbone- 增加6个卷积预测器- 为了处理多尺度检测，使用两种类型的link...
复制链接

扫一扫

专栏目录

智能血压计 CSDN认证博客专家 CSDN认证企业博客

码龄10年

45: 原创

2万+: 周排名

111万+: 总排名

12万+: 访问

: 等级

1547: 积分

4125: 粉丝

227: 获赞

49: 评论

679: 收藏

私信

关注

分类专栏

最新评论

有关skmultilearn.ensemble导入失败的问题
x534w756f: 请问博主这个包里的算法可以求出yred，根据yred与ytrue可以算出hamming loss ，但多标签不是还有one error ,coverage这些评价指标，这些该咋求啊？
非极大值抑制(nms)算法详解[python]
刚刚好711: 大佬能给个softer-nms的github链接吗
非极大值抑制(nms)算法详解[python]
m0_52760851: 大佬，你的Softer-NMS的相关解析后续咋没找到啊
设计一个随机算法，将一个整数M分成N个整数要求每个都在区间【minV, maxV】之间
jackC33: 我也写了一个，发表出来想搜搜自己的，看到博主的真是血压飙升啊，我用了50多行代码
范数简单理解
妹岛: 好清晰，终于明白点，太感谢了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。