【Pytorch】 Tensor变量[..., n]的使用

落日的恋

已于 2022-05-25 21:46:13 修改

阅读量539

点赞数 3

分类专栏： Pytorch 文章标签：深度学习 pytorch

于 2022-05-24 20:19:08 首次发布

本文链接：https://blog.csdn.net/qq_40795745/article/details/124953392

版权

Pytorch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在研究一些常见的目标检测算法，在看YoloV3的源代码中对先验框的相关参数进行设置时，发现对Tensor变量有以下变换，代码如下：

设置先验框中心位置的调整参数：

        x = torch.sigmoid(prediction[..., 0])
        y = torch.sigmoid(prediction[..., 1]) 
        w = prediction[..., 2] 
        h = prediction[..., 3]

以及更新调整后的先验框的中心位置和宽高：

        pred_boxes[..., 0] = x.data + grid_x 
        pred_boxes[..., 1] = y.data + grid_y 
        pred_boxes[..., 2] = torch.exp(w.data) * anchor_w 
        pred_boxes[..., 3] = torch.exp(h.data) * anchor_h

对于[..., 0]、[..., 1]等代表什么，在网上查了很久也没找。

查看x, y, w, h的shape，发现都是[bs, 3, 13, 13]、[bs, 3, 26, 26]和[bs, 3, 52, 52]，其中bs为网络训练的batch_size。可以发现，做[..., n]处理后，在先验框中心和长宽的数据、物体是否存在的指标和分类数据分别被赋给了其他变量。

可以得出结论，[..., n]是将数据的最后一维下标为n的数据进行切片，其他维的数据不变。可以假设，存在一个五维Tensor数据，[..., 0]可以将其最后一维（第五维）数据的下标为0（第1个）切片给提取出来，而不是只取最后一维的数据，取出的数据会减去一维，或可以理解为第五维长度变为1。总结来说，[..., n]就是前面的维数数据不变，最后一维对第n个数据进行切分。

YoloV3中通过将先验框的参数和分类的结果使用四维数据存储，最后组成一个五维数据。通过[..., n]就可以对先验框不同的参数进行读取和修改。