本文主要记录对采集的数据进行数据分析的角度。
前言
每每拿到数据集,为更好地了解数据,做出合适的预处理,需要对数据集进行一定的分析。
一、图片
从图片本身出发,我们研究图片的本身尺寸——即图像的宽高散点图;也需统计不同尺寸的图像的数量。
总结,从图片出发,基础的分析可以有两种种。
二、标注框
再就是对标注框进行分析,可以从一下几方面展开:
(1)标注框的宽高散点图
(2)标注框的宽高比
(3)各类别的标注框数量
(4)标注框中心分布情况
(5)对标注框进行聚类分析
三、类别
在数据集制作初期,我们就将数据集目标进行了分类。所以这里我们再就类别单独进行分析。
四、交叉综合
综合图片和类别两个方面,我们还能分析每个类别的图片数量,例如cat、dog类别的图片数量。亦可细化分析,每个类别的宽高散点图,如果你觉得有必要的话。
综合图片和标注框,每张图片上的标注框数量;
等等等等。
总结
总结上述分析角度
1、图像的宽高散点图
2、不同尺寸的图像的数量
3、标注框的宽高散点图
4、标注框的宽高比
5、各类别的标注框数量
6、标注框中心分布情况
7、每个类别的图片数量
8、每个类别的宽高散点图
9、每张图片上的标注框数量
10、对标注框进行聚类分析