数据分析的目的:分析过去&预测未来
数据分析统计方法:
- 描述性统计 → 数据
- 推断性统计 → 数据检验
人工智能三大领域:统计学、机器学习、深度学习。
**统计学:抽样(抽样方法) →[推断(统计方法)→ 误差]→ 总体
一、测量尺度
分类:定类&定序 → 频次统计;
连续:定距&定比 → 频次统计、均值、标准差;
- 定类 → 分类 → 性别
- 定序 → 分类+排序 → 年级
- 定距 → 分类+排序+加减 → 温度(没有绝对0点:0不代表没有温度)
- 定比 → 分类+排序+加减+乘除 → 体重(有绝对0点:0代表没有)
二、集中趋势的度量
1、平均数
1.1、算数平均数
总体平均数是个定值(定值:希腊字母表示),样本平均数是变量(变量:英文表示)。
1.2、加权平均数
加权平均数适用于分组数据,知道分组范围及频数求平均值。
1.3、几何平均数
用于计算平均增长率,是一个更加稳定的数据;
对原数据取自然对数,再相减,就是增长率;
1.4、调和平均&调整平均
调和平均:数据中数值集中在极小值附近,相对其他均值较小;
调整平均:将上限&下限(可能异常值)去掉一定比例(通常5%)数据,求算数平均;
2、众数、中位数
当数据差异较大时,平均数代表性较弱,用中位数表示数据集中趋势;
平均数易受极端值的影响,众数、中位数不受极端值的影响。
三、离散程度的度量
离散趋势代表了数据包含的信息量,及密集程度。
1、分类数据
异中比例:非众数组的频数占总频数的比例,用于衡量众数的代表性;
2、顺序数据
四分位差:组做排序,组号相减(表示50%的数据分布在中位数附近的几组数据中,用于衡量中位数的代表性)
3、数值型数据
EXCEL中方差、标准差计算公式:方差:var.p(总体)/var.s(样本); 标准差:stdev.p(总体)/stdev.s(样本)
3.1、总体:方差与标准差
3.2、样本:方差及标准差
四、相对位置的度量:标准分数
也称标准化值:均值为0,标准差为1。
# 0-1标准化一般用来去量纲。
1、经验法则:
当一组数据对称分布时:
- 约有68%的数据在平均数加减1个标准差范围内
- 约有95%的数据在平均数加减2个标准差范围内
- 约有99%的数据在平均数加减3个标准差范围内
2、切比雪夫不等式:
任意分布形态的数据,至少有1-1/的数据分布在平均数加减k个标准差之内。
- 至少75%数据落在平均数加减2个标准差范围之内
- 至少89%数据落在平均数加减3个标准差范围之内
- 至少94%数据落在平均数加减4个标准差范围之内
五、相对离散程度:离散系数
用于不同组别数据,离散程度的比较。