本期省流版:成为数据分析师,这些数理统计知识必不可少!
-
大样本,小样本的概念
-
协方差、相关系数、独立性之间的区别与联系
-
显著性水平 / 置信度 / 置信区间
-
假设检验
-
三种经典分布,和对应的三种检验方式
-
方差分析
-
中心极限定理,大数定理
内容很多,创作不易,请多多支持~
大样本 / 小样本
-
大样本:样本量趋于无穷
-
小样本:样本量有限
协方差 / 相关系数 / 独立性
协方差
-
定义:两个变量总体的误差,反映两个变量之间的变化趋势(eg. 一个上升,另一个也上升,则协方差为正值)
-
特点:协方差的取值范围是负无穷到正无穷,无法直观地判断两个变量之间的相关性强弱.
相关系数
-
定义:相关系数是协方差的标准化版本,它表示的是两个变量之间的线性关系强度和方向。
-
取值范围:[-1, 1],接近1表示变量之间存在强正相关,接近-1表示变量之间存在强负相关,接近0表示变量之间不存在线性关系。由于样本标准差为正,相关系数和协方差同号。
独立
-
定义:联合概率分布 = 各自的边缘概率分布的乘积
-
辨析:协方差 = 0 ——> 不相关、相关系数 = 0,不能推出彼此独立
-
协方差是相关系数的分子,相关系数反映变量线性相关性
-
线性不相关的变量之间可能存在非线性的影响,因此并不一定是独立的。只有当两个变量既不相关又相互独立时,才能确保它们之间没有任何关系。
显著性水平 / 置信度 / 置信区间
定义:第一类错误的概率也称为显著性水平α,置信度 = 1 - α。置信区间是参数范围(分位数)
置信区间大小的影响因素
-
样本大小:样本量越大,置信区间越窄。
-
置信水平:置信水平越高,置信区间越宽。
-
样本标准差:标准差越大,置信区间越宽。
假设检验是什么?
假设检验:
-
定义:检测实验组与对照组之间是否存在差异以及差异是否显著的办法。在检验之前先确定假设,一般把要检验的假设设为原假设H0,对应的为备