统计学基础知识

统计学

  • 样本性质

    1. 统计量

    样本均值

    样本方差(修正/未修正)

    分位数

    1. 抽样分布

      卡方分布:总体X服从标准正态分布

      t 分布:X服从标准正态分布,Y服从卡方分布

      F 分布:X服从m的卡方分布,Y服从n的卡方分布

    2. 点估计

      使用样本统计量去估计总体的值,比如用样本均值/方差去估计总体的均值/方差

    3. 区间估计

      使用样本统计量去估计出总体量的置信区间

    4. 假设检验

      提出一个原假设H0和备选假设H1,如果小概率发生了则原假设不成立。

      小概率a,小概率事件,拒绝域/接受域

      两类错误:弃真性错误 P{拒绝H0/H0为真}=α;取伪性错误 P{接受H0/H0不真}=β

    5. 描述性分析

      单变量描述性分析:求取某一字段的总和,最大最小,均值等

      两个样本统计量:

      • 偏度 g1:描述总体分布是否对称(g1=0,对称;g1>0左偏;g1<0右偏)
      • 峰度 g2: 描述总体分布形态的陡缓程度(g2<0陡;g2>0 缓)

      变异系数:标准偏差SD/平均值Mean *100%(如果系数>15%,则数据不正常)

      频数表:统计某一level的数据点个数

    6. 可视化分析

      展示原始数据,探索数据关系,展示分析结果

      类别型单变量可视化,数值型单变量可视化,使用点图探索关系

      图形

      条形图:统计自变量的频数(堆砌条形图/分组条形图/均值条形图)

      饼图:表达比例关系

      直方图:表达数据的分布类型

      核密度图:多个分布叠加

      箱线图:统计分组型数值型变量的数据离散程度

      散点图:探究两个变量之间的关系

    7. 度量变量之间的关系

      研究不同类型变量之间的关系

    8. 独立性检验

      类别型与类别型:卡方检验,费舍尔精确检验(数据样本量低)

      数值型与数值型:pearson相关系数(X与Y的协方差/标准方差之积)表达变量之间是否有线性相关性

      ​ Spearman相关系数探究变量之间的单调性

      显著性检验:统计出相关系数的置信区间,在假设相互独立的情况下是否成立。

      数值型与类别型:t 检验

©️2020 CSDN 皮肤主题: 技术黑板 设计师:CSDN官方博客 返回首页