1.什么是单变量图?
使用数据组的一个变量进行相应图的绘制,数据变量分为连续变量和离散型变量。本章主要选择连续变量绘制单变量图。
2.基于连续变量的单变量图的类型
-
直方图:用于表示数据分布和离散情况的统计图形。首先需要对数据组进行分组,然后统计每个分组内数据元的个数,最后使用一系列宽度相等、高度不等的长方形来表示相应的每个分组内的数据元个数。
-
密度图:直方图的一个变种类型,曲线形式,体现数据在连续时间段内的分布状况。和直方图相比,密度图不会因分组个数而导致数据显示不全,从而能够帮助用户有效判断数据的整体趋势。密度图的纵轴可以是频数或密度。
-
Q-Q图:本质是概率图,通过绘制分位数来进行概率分布比较。其作用是检验数据分布是否服从某一个分布。如果两个分布相似,则该Q-Q图趋近于落在 y = x 线上。如果两个分布线性相关,则点在Q-Q图上趋近于落在一条直线上。
举例:对于正态分布,Q-Q图是以标准正态分布的分位数为横坐标,样本数据值为纵坐标的散点图。而想要使用Q-Q图对某一样本数据进行正态分布的鉴别时,只需观察Q-Q图上的点是否近似在一条直线附近,且该条直线的斜率为标准差,截距为均值。
-
P-P 图:P-P图是根据变量的累积概率与指定的理论分布累积概率的关系绘制的图形,用于直观地检验样本数据是否符合某一概率分布。当样本符合预期分布时,各点呈现一条直线。P-P图与Q-Q图均用来检验数据是否服从某个分布。
-
经验分布函数图:经验分布函数也被称为经验累积分布函数。对于被测变量的某个值,该值的分布函数值表示所有检验样本中小于或等于该值的样本的比例。经验分布函数图用来检验样本数据是否符合某种预期分布