数理统计:
1.描述统计
2.推断统计
1.描述统计
1.什么是描述统计?
描述统计 从数据中提取 变量的主要信息
2.从数据中提取 变量的主要信息 =》 【指标】 统计量
统计量:
1.频率与频数
2.集中趋势分析:
均值、中位数、众数、分位数
3.离散程度分析:
极差、方差、标准差
4.分布形状:
偏度、峰度
3.提取 变量:
1.数值变量 【就是一个table 中的 column 是数值类型】
2.类别变量 【就是一个table 中的 column 是非数值类型 string 】
1.频率与频数
1.适用场景 =》类别变量
2.频数:就是 每个不同的取值出现的次数
3.频率:每个不同的取值出现的次数 与总次数的比值 用%表示
意义:
类别变量中,每个取值出现的次数
eg:
A班级 及格 30人 , B班级及格 35人 能说明()
1.A班级 成绩更好
2.B班级 成绩更好
3.成绩差不多
4.无法确定哪个班级成绩好
分析:
1.类别变量 => 及格
2. 频数 =》及格人数
1.集中趋势分析:
均值、中位数、众数、分位数
均值: 一组数据的总和 除以 数据的个数
均值 = 和 / 个数
中位数:一组数据的 按照 升序进行排列 最中间的位置 就是 中位数
众数: 一组数据 出现的次数最多的值
注意:
1.数值变量:
均值、中位数 表示一组数据 的 集中程度
2.类别变量:
众数 集中程度
3.分布:
正太分布:
偏态分布:
左偏分布: 均值在 最左边
右偏分布:均值在 最右边
4.影响:
1.均值 =》 受 极端值 影响 、
2.中位数 众数 不受极端值影响 【稳定】
3.众数 一组数据 中 可能不是唯一的 【单拿出来 是不行的】
问:
国家城市统计居民收入水平 , 使用那个指标衡量 更合适 ?
1.均值
2.中位数
3.中位数或者众数
4.都可以
意义:
衡量数据综合水平
思考:
缺失值 填充 如何处理?
1.数据 =》 0
2. 数据 去掉
3. 补充 =》 中位数
分位数:
通过 (n-1 ) 分位 划分 n个区间
每个区间数据的个数是相等的 (近似相等)
意义:
利用分位数 + 极值 可以判断 数据的分布状态
集中趋势分析:
弊端 :
5 5 5 5 =》 5
0 -5 20 5 =》 5
-100 100 120 -100 =》5
离散程度分析:
极差 、方差 、标准差
极差:一组数据中 ,最大值 - 最小值
方差: 一组数据中 每个元素 与 均值的偏离 大小
标准差:就是方差的开方
意义:
方差/标准差:
1.数据的分散性
越大 数据越分散
越小 数据越集中
2.数据的波动性
越大 波动越大
越小 波动越小
分布形状:
偏度、峰度
1.偏度:
倾斜程度的度量
eg:
数据 -》 正态分布 偏度就是 0
数据 -》 左偏分布 偏度就是 小于0
数据 -》 右偏分布 偏度就是 大于0
2.峰度:
描述 数据分布 陡缓的程度
1.标准 正态分布 峰度 0
2.如果 峰度 > 0 :
数据在分布上 数据比 标准 正态分布 密集 =》 方差比较 小
2.如果 峰度 < 0 :
数据在分布上 数据比 标准 正态分布 分散 =》 方差比较 大
意义:
1. =》 数据的分布特征
2. 数据正太校验