第三章 定量数据的描述分析
对于数值型数据,
1)首先通过直方图观察数据分布,是单峰,双峰还是均匀分布,左偏还是右偏,还是对称的,
2)然后分析中心趋势(中位数和均值)和离散趋势(四分位差,标准差,极差),通常,有偏分布,分析中位数和四分位差,对称分布,分析均值和标准差,注意,对于单峰分布,其四分位数差通常比标准差要大,若不是这样,需要重新检查数据分布是不是无偏的,有没有异常值存在。
3)细致讨论其他不常见的特征
对于多峰分布,需要分析出出现的原因,找到原因后,最好再数据分组进行分析;
需要指出明显的异常值。先对数据计算均值和标准差,然后对剔除异常值后的数据计算均值以及标准差,对他们的差别进行比较说明。异常值的存在对中位数和四分分位数差基本上没什么影响。
(均值与中位数相差不大,说明异常值影响不大;对多峰的数据,最好把他们区分开,然后分别进行描述
1.定量数据的描述图形
1)直方图
对于数值型数据,把可能观察到的数量变量数值按照等距方式划分成一个组别,然后统计每个组别中数值发生的次数,据此呼出直方图。直方图的分组名称放在水平轴上,相应的频数用纵轴表示。
2)茎叶图
能够实现直方图的功能,并能显示每个具体的数值
3)点图
2.分布的三种类型
1)单峰分布