1.描述性统计分析
1. 统计量
频数、频率
均值、中位数、众数、分位数
极差、方差、标准差
偏度(skew)小于0左偏,大于0右偏(右尾长)
峰度(kurt)小于0低于正态分布,大于0高于正态分布
正态分布
均值=中位数=众数
左偏(偏度skew<0)
均值<中位数<众数
右偏(偏度>0)
均值>中位数>众数
分位数如果不为整数则按权重取值
2.变量类型
类别变量:
无序类别变量(名义变量)
有序类别变量(等级变量)
数值变量:
连续变量
离散变量
2.参数估计
1.点估计
用样本统计量去替代总体参数
优点:能够给出具体的数值
缺点:缺乏准确性
2.区间估计
根据样本统计量计算一个可能的区间和概率。
区间为置信区间,概率为置信度
优点:能够给出合理的范围以及信心指数
缺点:不能给出具体数值
3. 中心极限定理
当样本容量n足够大时,样本均值围绕在总体均值左右,呈正态分布。