最近在研究一些常见的目标检测算法,在看YoloV3的源代码中对先验框的相关参数进行设置时,发现对Tensor变量有以下变换,代码如下:
设置先验框中心位置的调整参数:
x = torch.sigmoid(prediction[..., 0])
y = torch.sigmoid(prediction[..., 1])
w = prediction[..., 2]
h = prediction[..., 3]
以及更新调整后的先验框的中心位置和宽高:
pred_boxes[..., 0] = x.data + grid_x
pred_boxes[..., 1] = y.data + grid_y
pred_boxes[..., 2] = torch.exp(w.data) * anchor_w
pred_boxes[..., 3] = torch.exp(h.data) * anchor_h
对于[..., 0]、[..., 1]等代表什么,在网上查了很久也没找。
查看x, y, w, h的shape,发现都是[bs, 3, 13, 13]、[bs, 3, 26, 26]和[bs, 3, 52, 52],其中bs为网络训练的batch_size。可以发现,做[..., n]处理后,在先验框中心和长宽的数据、物体是否存在的指标和分类数据分别被赋给了其他变量。
可以得出结论,[..., n]是将数据的最后一维下标为n的数据进行切片,其他维的数据不变。可以假设,存在一个五维Tensor数据,[..., 0]可以将其最后一维(第五维)数据的下标为0(第1个)切片给提取出来,而不是只取最后一维的数据,取出的数据会减去一维,或可以理解为第五维长度变为1。总结来说,[..., n]就是前面的维数数据不变,最后一维对第n个数据进行切分。
YoloV3中通过将先验框的参数和分类的结果使用四维数据存储,最后组成一个五维数据。通过[..., n]就可以对先验框不同的参数进行读取和修改。