统计学基础：描述与推断统计分析-CSDN博客

本文链接：https://blog.csdn.net/antuo123/article/details/124346902

数理统计：
1.描述统计
2.推断统计

1.描述统计
1.什么是描述统计？
描述统计从数据中提取变量的主要信息

   2.从数据中提取变量的主要信息 =》【指标】统计量
   统计量：
       1.频率与频数
       2.集中趋势分析：
           均值、中位数、众数、分位数
       3.离散程度分析：
           极差、方差、标准差
       4.分布形状：
           偏度、峰度
   3.提取变量：
       1.数值变量【就是一个table 中的 column 是数值类型】
       2.类别变量【就是一个table 中的 column 是非数值类型 string 】

1.频率与频数
   1.适用场景 =》类别变量
   2.频数：就是每个不同的取值出现的次数
   3.频率：每个不同的取值出现的次数与总次数的比值用%表示

   意义：
       类别变量中，每个取值出现的次数

   eg：
       A班级及格 30人， B班级及格 35人能说明（）
           1.A班级成绩更好
           2.B班级成绩更好
           3.成绩差不多
           4.无法确定哪个班级成绩好

       分析：
           1.类别变量 => 及格
           2. 频数 =》及格人数

1.集中趋势分析：
均值、中位数、众数、分位数

均值: 一组数据的总和除以数据的个数

均值 = 和 / 个数

中位数：一组数据的按照升序进行排列最中间的位置就是中位数

众数：一组数据出现的次数最多的值

注意：
   1.数值变量：
       均值、中位数表示一组数据的集中程度
   2.类别变量：
       众数集中程度

   3.分布:
       正太分布：
       偏态分布：
           左偏分布：均值在最左边
           右偏分布：均值在最右边
   4.影响：
       1.均值 =》受极端值影响、
       2.中位数众数不受极端值影响【稳定】
       3.众数一组数据中可能不是唯一的【单拿出来是不行的】

       问：
           国家城市统计居民收入水平，使用那个指标衡量更合适？
               1.均值
               2.中位数
               3.中位数或者众数
               4.都可以

       意义：
           衡量数据综合水平

           思考：
               缺失值填充如何处理？
                   1.数据 =》 0
                   2. 数据去掉
                   3. 补充 =》中位数

分位数：
通过（n-1 ）分位划分 n个区间
每个区间数据的个数是相等的（近似相等）

意义：
利用分位数 + 极值可以判断数据的分布状态

集中趋势分析：
   弊端：
       5 5 5 5 =》 5
       0 -5 20 5        =》 5
       -100 100 120 -100 =》5

离散程度分析：
极差、方差、标准差
极差：一组数据中，最大值 - 最小值
方差：一组数据中每个元素与均值的偏离大小
标准差：就是方差的开方

意义：
   方差/标准差：
       1.数据的分散性
           越大数据越分散
           越小数据越集中
       2.数据的波动性
           越大波动越大
           越小波动越小

分布形状：
偏度、峰度

1.偏度:
   倾斜程度的度量
   eg：
       数据 -》正态分布偏度就是 0
       数据 -》左偏分布偏度就是小于0
       数据 -》右偏分布偏度就是大于0

2.峰度：
   描述数据分布陡缓的程度
   1.标准正态分布峰度 0
   2.如果峰度 > 0 :
       数据在分布上数据比标准正态分布密集 =》方差比较小
   2.如果峰度 < 0 :
   数据在分布上数据比标准正态分布分散 =》方差比较大

   意义：
       1. =》数据的分布特征
       2. 数据正太校验