AVA数据集标注文件解读

一、数据集文件总览

1.1数据准备

使用到的软件:ffmpeg、labelimg
其中1.1.1和1.1.2的csv文件我都是使用labelimg得到的边框数据。这一部分数据我是在Windows系统上完成的,然后将.txt文件中的数值移过来。
首先,用ffmpeg切割打拳视频,得到每秒一帧的图片。
其次,使用labelimg进行标注,格式选yolo。

1.2annotations

因为后期图片数量巨大,推荐先用excel写好,然后文件另存为csv格式,然后在txt上修改

1.2.1 ava_train_v2.2.csv

格式:
video_id,middle_frame_timestamp,person_box,action_id,person_id
video_id:视频标识符
middle_frame_timestamp:视频开始后的秒数(关键帧所在的位置)
person_box:四个数字分别为(x1,y1,x2,y2)左下、右上的点坐标
action_id:动作标签序号
persion_id:人物的编号(如果视频中出现多人,每个人对应的标签id是不同的)

A,1,0.569,0.534,0.456,0.855,1,0

1.2.2 ava_val_v2.2.csv

格式同上:

B,1,0.408,0.498,0.286,0.937,1,0

其中person_box的值,用labelimg生成的txt文件,如图。box的值取小数点后三位取小数点后三位

1.2.3 ava_val_excluded_timestamps_v2.2.csv

这个是训练中需要忽略的时间点,例如一个视频你裁剪完发现里面有的图片是没有人物的,你这时就需要忽略这一帧的训练,然后就需要把对应的时间写上。格式:

video_id,middle_frame_timestamp
video_id:视频标识符
middle_frame_timestamp:视频开始后的秒数

5BDj0oW5hnA,1038
5BDj0oW5hnA,1058

1.2.3文件名为ava_val_excluded_timestamps_v2.2.csv,这个文件是在检验集中需要忽略的帧,如果是训练集的话就相应的改为ava_train_excluded_timestamps_v2.2.csv (就是将val换成train)

1.2.4 ava_action_list_v2.2_for_activitynet_2019.pbtxt

动作标签:

item {
  name: "yq"
  id: 1
}
item {
  name: "dq"
  id: 2
}

1.2.5 ava_detection_train_boxes_and_labels_include_negative_v2.2.csv

video_id,middle_frame_timestamp,person_box,action_id,精确度

A,1,0.569,0.534,0.456,0.855,1,0.996382
A,2,0.566,0.523,0.423,0.822,1,0.996382
A,3,0.369,0.473,0.260,0.921,1,0.996382
A,4,0.429,0.516,0.271,0.937,1,0.996382
A,5,0.508,0.512,0.426,0.916,1,0.996382
A,6,0.351,0.488,0.270,0.971,1,0.996382

1.2.5和1.2.6最后一列的数字为精确度,应该是在的detection中检测得出的精确度。

1.2.6 ava_detection_val_boxes_and_labels.csv

video_id,middle_frame_timestamp,person_box,精确度

B,1,0.408,0.498,0.286,0.937,,0.995518
B,2,0.410,0.510,0.285,0.956,,0.995518
B,3,0.501,0.517,0.347,0.882,,0.995518
B,4,0.458,0.496,0.282,0.913,,0.995518
B,5,0.554,0.524,0.358,0.870,,0.995518
B,6,0.467,0.496,0.264,0.947,,0.995518

1.3farme_lists

其中A、B分别为train和val的表格,格式如下:
也是推荐在excel上面写好然后生成csv格式在做修改,速度会比较快

original_vido_id video_id frame_id path labels
A 0 0 A/A_000001.jpg ""

originBl_vido_id video_id frBme_id pBth lBbels
B 1 0 B/B_000001.jpg ""

1.4frames

这里存放的是在第一部分剪切的图片,每秒30帧的那个文件。

### AVA 数据集下载与使用说明 #### 文件结构概述 AVA数据集中包含了多种类型的文件用于训练和验证模型。具体来说,`train_without_personID.csv`文件保存了训练数据的结果[^1]。而整个数据集文件总览如下: - `annotations/ava_train_v2.2.csv`: 训练集注释文件。 - `annotations/ava_val_v2.2.csv`: 验证集注释文件。 - `annotations/ava_val_excluded_timestamps_v2.2.csv`: 被排除的时间戳列表。 - `annotations/ava_action_list_v2.2_for_activitynet_2019.pbtxt`: 动作分类列表。 - `annotations/ava_detection_train_boxes_and_labels_include_negative_v2.2.csv`: 包含负样本框的训练检测标签。 - `annotations/ava_detection_val_boxes_and_labels.csv`: 验证集边界框及标签。 此外还有帧列表(`frame_lists`)以及实际图像帧(`frames`)[^2]。 #### 数据特点描述 该数据集主要特点是密集地标注了来自430个15分钟长度视频片段中的80类基本视觉行为,在时间和空间维度都进行了精确定位,总计超过一百五十万条动作标记记录。值得注意的是,单个人物可以在同一时刻被赋予多个不同的动作标签,并且人物角色会在相邻时间段内保持连贯性。这种设计使得AVA区别于其他仅针对短片段复合型活动提供稀疏标注数据集合[^3]。 #### 工具安装指南 对于想要利用此数据集进行研究或者项目开发的研究者而言,可以借助LabelImg这样的工具来进行自定义标注工作。获取方式简单便捷:只需访问GitHub页面点击“Clone or download”,之后选择“Download ZIP”。完成下载后记得解压缩以便后续操作[^4]。 ```bash wget https://github.com/tzutalin/labelImg/archive/master.zip unzip master.zip cd labelImg-master/ make qt5py3 ./labelImg.py ``` 以上命令适用于Linux环境下的快速部署流程演示。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值