STTran 源码解读(1)：AG类-CSDN博客

本文链接：https://blog.csdn.net/qq_34108497/article/details/128901294

STTran 源码解读(1)：AG类

数据集读取部分

初始化部分
1）加载注释文件：
从annotations文件夹中加载object classes，relationship classes，所有的person_bbox和object_bbox.
2）收集有效帧：
1.当视频或者帧中没有人或者视频只包含一帧图片时，不记录对应的视频和帧；
2.get_annotation_frame获取每一帧的human的bbox和objects的bbox、class、三类relationship。

迭代器部分
这部分将一段视频帧图片读取为向量，返回的相关向量的维度如下：
im(单张图片）= (w,h,颜色通道)
img_tensor(一段视频） = (num of image,w,h,颜色通道)
im_info = (num of image,颜色通道)
gt_boxes(ground truth零向量) = (num of image,1,5)
num_boxes = = (num of image,)
index = num of image

返回结果部分
train中的AG_dataset_train得到的结果：
三种relationship classes, object classes,frame_path, gt_annotations，video_size,video_list
其中gt_annotations返回的是每一个视频中的每一帧上的person和物体的bbox,
以及对应的relationship，其中relationship的类型为Tensor.

( 如有错误，还请指正，谢谢。)