AVA数据集标注文件解读

郑琳潇

已于 2023-06-22 21:39:12 修改

阅读量5.2k

点赞数 5

文章标签： python 计算机视觉目标检测深度学习

于 2022-03-15 16:35:16 首次发布

本文链接：https://blog.csdn.net/qq_45672807/article/details/123502010

版权

数据集文件

一、数据集文件总览

一、数据集文件总览

1.1数据准备

使用到的软件：ffmpeg、labelimg
其中1.1.1和1.1.2的csv文件我都是使用labelimg得到的边框数据。这一部分数据我是在Windows系统上完成的，然后将.txt文件中的数值移过来。
首先，用ffmpeg切割打拳视频，得到每秒一帧的图片。
其次，使用labelimg进行标注，格式选yolo。

1.2annotations

因为后期图片数量巨大，推荐先用excel写好，然后文件另存为csv格式，然后在txt上修改

1.2.1 ava_train_v2.2.csv

格式：
video_id,middle_frame_timestamp,person_box,action_id,person_id
video_id：视频标识符
middle_frame_timestamp：视频开始后的秒数（关键帧所在的位置）
person_box：四个数字分别为（x1,y1,x2,y2）左下、右上的点坐标
action_id：动作标签序号
persion_id：人物的编号（如果视频中出现多人，每个人对应的标签id是不同的）

A,1,0.569,0.534,0.456,0.855,1,0

1.2.2 ava_val_v2.2.csv

格式同上：

B,1,0.408,0.498,0.286,0.937,1,0

其中person_box的值，用labelimg生成的txt文件，如图。box的值取小数点后三位

1.2.3 ava_val_excluded_timestamps_v2.2.csv

这个是训练中需要忽略的时间点，例如一个视频你裁剪完发现里面有的图片是没有人物的，你这时就需要忽略这一帧的训练，然后就需要把对应的时间写上。格式：

video_id,middle_frame_timestamp
video_id：视频标识符
middle_frame_timestamp：视频开始后的秒数

5BDj0oW5hnA,1038
5BDj0oW5hnA,1058

1.2.3文件名为ava_val_excluded_timestamps_v2.2.csv，这个文件是在检验集中需要忽略的帧，如果是训练集的话就相应的改为ava_train_excluded_timestamps_v2.2.csv （就是将val换成train）

1.2.4 ava_action_list_v2.2_for_activitynet_2019.pbtxt

动作标签：

item {
  name: "yq"
  id: 1
}
item {
  name: "dq"
  id: 2
}

1.2.5 ava_detection_train_boxes_and_labels_include_negative_v2.2.csv

video_id,middle_frame_timestamp,person_box,action_id,精确度

A,1,0.569,0.534,0.456,0.855,1,0.996382
A,2,0.566,0.523,0.423,0.822,1,0.996382
A,3,0.369,0.473,0.260,0.921,1,0.996382
A,4,0.429,0.516,0.271,0.937,1,0.996382
A,5,0.508,0.512,0.426,0.916,1,0.996382
A,6,0.351,0.488,0.270,0.971,1,0.996382

1.2.5和1.2.6最后一列的数字为精确度，应该是在的detection中检测得出的精确度。

1.2.6 ava_detection_val_boxes_and_labels.csv

video_id,middle_frame_timestamp,person_box,精确度

B,1,0.408,0.498,0.286,0.937,,0.995518
B,2,0.410,0.510,0.285,0.956,,0.995518
B,3,0.501,0.517,0.347,0.882,,0.995518
B,4,0.458,0.496,0.282,0.913,,0.995518
B,5,0.554,0.524,0.358,0.870,,0.995518
B,6,0.467,0.496,0.264,0.947,,0.995518

1.3farme_lists

其中A、B分别为train和val的表格，格式如下：
也是推荐在excel上面写好然后生成csv格式在做修改，速度会比较快

original_vido_id video_id frame_id path labels
A 0 0 A/A_000001.jpg ""

originBl_vido_id video_id frBme_id pBth lBbels
B 1 0 B/B_000001.jpg ""

1.4frames

这里存放的是在第一部分剪切的图片，每秒30帧的那个文件。