数据集文件
一、数据集文件总览
1.1数据准备
使用到的软件:ffmpeg、labelimg
其中1.1.1和1.1.2的csv文件我都是使用labelimg得到的边框数据。这一部分数据我是在Windows系统上完成的,然后将.txt文件中的数值移过来。
首先,用ffmpeg切割打拳视频,得到每秒一帧的图片。
其次,使用labelimg进行标注,格式选yolo。
1.2annotations
因为后期图片数量巨大,推荐先用excel写好,然后文件另存为csv格式,然后在txt上修改
1.2.1 ava_train_v2.2.csv
格式:
video_id,middle_frame_timestamp,person_box,action_id,person_id
video_id:视频标识符
middle_frame_timestamp:视频开始后的秒数(关键帧所在的位置)
person_box:四个数字分别为(x1,y1,x2,y2)左下、右上的点坐标
action_id:动作标签序号
persion_id:人物的编号(如果视频中出现多人,每个人对应的标签id是不同的)
A,1,0.569,0.534,0.456,0.855,1,0
1.2.2 ava_val_v2.2.csv
格式同上:
B,1,0.408,0.498,0.286,0.937,1,0
其中person_box的值,用labelimg生成的txt文件,如图。box的值取小数点后三位
1.2.3 ava_val_excluded_timestamps_v2.2.csv
这个是训练中需要忽略的时间点,例如一个视频你裁剪完发现里面有的图片是没有人物的,你这时就需要忽略这一帧的训练,然后就需要把对应的时间写上。格式:
video_id,middle_frame_timestamp
video_id:视频标识符
middle_frame_timestamp:视频开始后的秒数
5BDj0oW5hnA,1038
5BDj0oW5hnA,1058
1.2.3文件名为ava_val_excluded_timestamps_v2.2.csv,这个文件是在检验集中需要忽略的帧,如果是训练集的话就相应的改为ava_train_excluded_timestamps_v2.2.csv (就是将val换成train)
1.2.4 ava_action_list_v2.2_for_activitynet_2019.pbtxt
动作标签:
item {
name: "yq"
id: 1
}
item {
name: "dq"
id: 2
}
1.2.5 ava_detection_train_boxes_and_labels_include_negative_v2.2.csv
video_id,middle_frame_timestamp,person_box,action_id,精确度
A,1,0.569,0.534,0.456,0.855,1,0.996382
A,2,0.566,0.523,0.423,0.822,1,0.996382
A,3,0.369,0.473,0.260,0.921,1,0.996382
A,4,0.429,0.516,0.271,0.937,1,0.996382
A,5,0.508,0.512,0.426,0.916,1,0.996382
A,6,0.351,0.488,0.270,0.971,1,0.996382
1.2.5和1.2.6最后一列的数字为精确度,应该是在的detection中检测得出的精确度。
1.2.6 ava_detection_val_boxes_and_labels.csv
video_id,middle_frame_timestamp,person_box,精确度
B,1,0.408,0.498,0.286,0.937,,0.995518
B,2,0.410,0.510,0.285,0.956,,0.995518
B,3,0.501,0.517,0.347,0.882,,0.995518
B,4,0.458,0.496,0.282,0.913,,0.995518
B,5,0.554,0.524,0.358,0.870,,0.995518
B,6,0.467,0.496,0.264,0.947,,0.995518
1.3farme_lists
其中A、B分别为train和val的表格,格式如下:
也是推荐在excel上面写好然后生成csv格式在做修改,速度会比较快
original_vido_id video_id frame_id path labels
A 0 0 A/A_000001.jpg ""
originBl_vido_id video_id frBme_id pBth lBbels
B 1 0 B/B_000001.jpg ""
1.4frames
这里存放的是在第一部分剪切的图片,每秒30帧的那个文件。