ANOVA与机器学习

ANOVA,分析变异数,用于检验多个样本均数间的差异显著性。它分解总变异为组间变异和组内变异,通过计算F值并与F分布比较,判断处理因素是否显著。在机器学习中,ANOVA可用于特征选择,识别显著特征,提升模型性能。
摘要由CSDN通过智能技术生成

方差分析ANOVA

anova, analysis of variance, 方差分析, 又称"变异数分析", 用于两个或两个以上样本均数差别的显著性检验.

由于各种因素的影响, 观测数据呈现波动的形状, 造成波动的原因可以分为:

  1. 不可控的随机因素
  2. 可控因素, 这是在研究中施加的控制结果的参数引起的

组间变异和组内变异

换个角度理解, 任何观察值的总变异都可以分解为组间变异和组内变异. 假设n为样本总数, m为组数.

  • 总变异(total variation)
    所有测量值之间总的变异程度 :
    S S T = ∑ i = 1 m ∑ j = 1 m i ( X i j − X ˉ ) 2 SS_T = \sum_{i=1}^{m} \sum_{j=1}^{m_i} (X_{ij}-\bar{X})^2 SST=i=1mj=1mi(XijXˉ)2

  • 组间变异
    各组均数与总均数的离均差平方和:
    S S b = ∑ i = 1 m m i ( X i ˉ − X ˉ ) 2 SS_b =\sum_{i=1}^{m} m_i(\bar{X_i}-\bar{X})^2 SSb=i=1mmi(XiˉXˉ)2
    组间变异反映了各组均数的变异程度, 组间变异=随机误差+处理因素作用

  • 组内变异
    用各个组内测量值 X i j X_{ij} Xij 与其所在组的均数差值的平方和来表示

S S w = ∑ i = 1 m ∑ j = 1 m i ( X i j − X i ˉ ) SS_w = \sum_{i=1}^{m} \sum_{j=1}^{m_i}(X_{ij}-\bar{X_i}) SSw=i=1m

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值