是一个用于检测行人的数据集,加州理工学院于 2009 年发布,此后经过数次修改至今。其包含约 10 小时 640 * 480 的 30Hz 视频,主要由行驶在乡村街道上的小车拍摄,视频共计约 250,000 帧,包含 350,000 个边界框和 2300 个行人的注释,其中注释包括包围盒详细的闭塞标签之间的对应关系。
数据集主要包括1. 训练集+测试集:seq格式的数据;2.行人标签数据:vbb(video bounding box)格式的数据,该格式数据主要是数据集1中的行人bounding box。
图片及标注
用这个工具实现将数据转为jpeg格式。
https://github.com/mitmul/caltech-pedestrian-dataset-converter
这个可以实现将其转为VOC格式
https://www.cnblogs.com/ya-cpp/p/8099135.html
有可能会因为python版本不同出现空文件的情况,参考
https://blog.csdn.net/u012939880/article/details/80446473
参考链接:https://blog.csdn.net/a2008301610258/article/details/45873867