STTran 源码解读(1):AG类
GitHub: STTran
数据集读取部分
初始化部分
1)加载注释文件:
从annotations文件夹中加载object classes,relationship classes,所有的person_bbox和object_bbox.
2)收集有效帧:
1.当视频或者帧中没有人或者视频只包含一帧图片时,不记录对应的视频和帧;
2.get_annotation_frame获取每一帧的human的bbox和objects的bbox、class、三类relationship。
迭代器部分
这部分将一段视频帧图片读取为向量,返回的相关向量的维度如下:
im(单张图片)= (w,h,颜色通道)
img_tensor(一段视频) = (num of image,w,h,颜色通道)
im_info = (num of image,颜色通道)
gt_boxes(ground truth零向量) = (num of image,1,5)
num_boxes = = (num of image,)
index = num of image
返回结果部分
train中的AG_dataset_train得到的结果:
三种relationship classes, object classes,frame_path, gt_annotations,video_size,video_list
其中gt_annotations返回的是每一个视频中的每一帧上的person和物体的bbox,
以及对应的relationship,其中relationship的类型为Tensor.
( 如有错误,还请指正,谢谢。)