CornerNet

最新推荐文章于 2023-03-04 22:17:05 发布

Darren T

最新推荐文章于 2023-03-04 22:17:05 发布

阅读量104

点赞数

分类专栏：深度学习文章标签：深度学习 python

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

CornerNet-(目标检测->关键点检测)

流程：

ConvNet生成两组heat maps来预测不同分类下的corners，其中一组负责预测左上角，另一组负责预测右下角。backbone使用hourglass network。每组heatmap有C个channel，其中C是category数量，heatmap的size为。每个channel就是一个binary mask，表示location是否是这个分类下的corner。
ConvNet为每个corner预测embedding vector，用于判断某左上角和右下角是否同属一个目标，
为了使得通过预测左上角和右下角corner得到的bbox更加紧贴目标，ConvNet还预测了corner的location偏差offset

损失函数

L_off 为关于取整计算时缺失的梯度。

anchor free：

corner在离散化bbox空间更加高效，比如 (h,w)的feature map，corner总共有种可能性，而anchor box则有种可能性，所以可以说使用了的corners 来表征的anchor boxes。

corner：

gt corner location为中心的某个圆内，应该降低对negative location的惩罚比较合理，随着negative location远离圆中心，逐渐增大惩罚。记为gt heatmap的值，当位置处是gt corner且对应分类为时，表示positive，其余情况表示negative，在gt corner对应分类下对一定几何范围内的negative location 降低惩罚。在离gt较近的区域内的negative corner的IOU值大于0.7 我们也认为是有必要保留的，所以作出这样的惩罚。

其中表示negative location 与 gt corner location（圆中心）的坐标相对值，是圆的半径，，这个值控制惩罚降低的变化速度，值越大，随着negative location远离圆中心，值下降的越慢

损失函数为： N为一个image中object的数量为预测heatmap上的预测值（预测位置处是分类为的corner的概率）

坐标的修复：

pooling layer：

作者认为，要确定一个location是不是top-left corner，需要从这个location水平向右看，才能知道是不是目标的top most边界，同理，从这个location垂直向下看，才能知道是不是目标的left most边界。这就是corner pooling层。所有location的vector就组成heatmap。corner poolingdie叠加了tl右边的最大特征值和最下边的最大特征值，根据右边和下面的特征来确定corner tl。

embedding：寻找属于同一目标的左上右下的location

etk和ebk分别是第k个目标左上和右下corner对应位置的embedding vector，ek是这两个向量的均值向量。在pull的时候，需要使同一个目标corner对应的两个embedding vector的距离尽量小，这里就以两个embedding vector分别到其均值向量也就是ek的距离之和表征两个embedding vector的距离；在push的时候，需要不同目标的corner对应的embedding vector尽量远，在这里就以每两个目标的均值向量ek之间的距离均值表征不同目标的距离。其实这么做就是为了保证类内离散度小的同时，类间差大。

hourglass：

hourglass模块结合了local 特征和 global 特征生成新的特征，重复这个过程，从而捕获更加higher-level的信息

使用了两个hourglass模块级联，并做了一些修改，包括：1. 下采样使用stride=2的conv代替max-pooling。2. 在hourglass内部，feature分辨率和channel的变化（见下面的具体讨论部分）。

Darren T

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CornerNet

CornerNet-(目标检测->关键点检测)流程：ConvNet生成两组heat maps来预测不同分类下的corners，其中一组负责预测左上角，另一组负责预测右下角。backbone使用hourglass network。每组heatmap有C个channel，其中C是category数量，heatmap的size为。每个channel就是一个binary mask，表示location是否是这个分类下的corner。 ConvNet为每个corner预测embedding vec..
复制链接

扫一扫