面向面试的机器学习知识点(2)——数理统计

本期省流版:成为数据分析师,这些数理统计知识必不可少!

  1. 大样本,小样本的概念

  2. 协方差、相关系数、独立性之间的区别与联系

  3. 显著性水平 / 置信度 / 置信区间

  4. 假设检验

  5. 三种经典分布,和对应的三种检验方式

  6. 方差分析

  7. 中心极限定理,大数定理

内容很多,创作不易,请多多支持~ 


大样本 / 小样本

  1. 大样本:样本量趋于无穷

  2. 小样本:样本量有限

协方差 / 相关系数 / 独立性

协方差

  1. 定义:两个变量总体的误差,反映两个变量之间的变化趋势(eg. 一个上升,另一个也上升,则协方差为正值)

  2. 特点:协方差的取值范围是负无穷到正无穷,无法直观地判断两个变量之间的相关性强弱.

相关系数

  1. 定义:相关系数是协方差的标准化版本,它表示的是两个变量之间的线性关系强度和方向。

  2. 取值范围:[-1, 1],接近1表示变量之间存在强正相关,接近-1表示变量之间存在强负相关,接近0表示变量之间不存在线性关系。由于样本标准差为正,相关系数和协方差同号。

独立

  1. 定义:联合概率分布 = 各自的边缘概率分布的乘积

  2. 辨析:协方差 = 0 ——> 不相关、相关系数 = 0,不能推出彼此独立

  3. 协方差是相关系数的分子,相关系数反映变量线性相关性

  4. 线性不相关的变量之间可能存在非线性的影响,因此并不一定是独立的。只有当两个变量既不相关又相互独立时,才能确保它们之间没有任何关系。

显著性水平 / 置信度 / 置信区间

定义:第一类错误的概率也称为显著性水平α,置信度 = 1 - α。置信区间是参数范围(分位数)

置信区间大小的影响因素

  1. 样本大小:样本量越大,置信区间越窄。

  2. 置信水平:置信水平越高,置信区间越宽。

  3. 样本标准差:标准差越大,置信区间越宽。

假设检验是什么?

假设检验:

  1. 定义:检测实验组与对照组之间是否存在差异以及差异是否显著的办法。在检验之前先确定假设,一般把要检验的假设设为原假设H0,对应的为备

  • 60
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小井正在努力中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值