描述性统计分析
描述性统计所提取的统计信息,我们成为**统计量**,其内容包括以下几方面:
- 频数与频率
- 频数:数据中类别变量每个不同取值出现的次数
- 频率:每个类别变量的频数与总次数比值,通常百分比表示.
- 均值:即平均值,其为一组数据的总和除以数据的个数
- 中位数 :将一组数据升序排列,位于该组数据中间位置的值,就是中位数.如果数据个数为偶数,则取中间两个数值的均值
- 众数:一组数据中出现次数最多的值
- 分位数: 数据几分位处对应的值,如1/4处
- 极差:指一组数据中,最大值与最小值之差
- 方差:体现一组数据中,每个元素与均值偏离的大小
- 标准差:为方差的开方
- 三者关系:
- 方差(标准差) 可以体现数据分散性,方差(标准差)越大,数据越分散,方差(标准差)越小,数据越集中
- 方差(标准差)可以体现数据的波动性(稳定性),方差(标准差)越大,数据波动越大,方差(标准差)越小,数据波动性越小
- 当数据较大时,可以用n代替n-1
- 偏度
- 峰度
变量分类:
- 类别变量
- 无序类别变量(名义变量)
- 有序类别变量(等级变量)
- 连续变量
- 离散变量
- 分位数
- 1/4分位 `Q1_index=1+(n-1)*0.25`
- 2/4分位 `Q2_index=1+(n-1)*0.50`
- 3/4分位 `Q3_index=1&#