Explained variance(解释方差)

Explained variance(解释方差)是一个统计学概念,核心思想都是用来衡量模型对数据变化的解释能力或预测准确度。

回归分析(如线性回归)中,explained variance 可以用来评估模型预测值相对于实际观测值的好坏程度。explained variance 计算公式:

其中:
- y 是实际的目标变量(即真实值);
- y\hat{}是模型预测的输出值;
- 表示残差平方和除以样本数量(也即是误差项的标准差的平方);
- 是目标变量 \( y \) 的方差。

explained variance score 越接近1,表示模型对数据集变化的解释能力越强,预测效果越好;越接近0,则表明模型对数据变化的解释能力越弱。

另一种相关的评估指标是R²(决定系数),它实际上是explained variance的百分比形式:

其中:
- RSS(Residual Sum of Squares)是残差平方和;
- TSS(Total Sum of Squares)是总平方和,即所有观测值与其平均值差的平方和;
- 当 时,模型完美拟合数据,即explained variance达到最大。

主成分分析(PCA)中,explained variance ratio也有类似的概念,它指的是各个主成分解释整个数据集中变异性的比例,它用来量化每个主成分对于原始数据集变异性(variance)的解释程度,即各主成分的重要性。

explained variance ratio是每个主成分的特征值除以所有特征值的总和,从而得出该主成分解释了总方差的多少比例。具体地,第𝑖个主成分的explained variance ratio 计算方式为:

其中,

  • 𝜆𝑖是第 𝑖个特征值,
  • 𝑛是原始变量的数量。

由于所有特征值的和等于原始数据集的总方差,所以所有主成分的explained variance ratio之和必定为1,表示它们共同解释了数据集的所有变异性。

举个栗子,如果PCA结果显示第一个主成分(PC1)的explained variance ratio为0.75,意味着大约75%的原始数据的变异可以用这个单一的新变量(PC1)来解释。后续的主成分会依次解释剩余的部分,直到所有主成分加起来能解释数据集中的全部变异性。通过这种方式,我们可以依据explained variance ratio来选择保留多少个主成分来重构数据,以达到降维的同时尽量保持数据原有的信息含量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值