Explained variance（解释方差）

最新推荐文章于 2024-11-07 10:06:44 发布

YH美洲大蠊

最新推荐文章于 2024-11-07 10:06:44 发布

阅读量7.7k

点赞数 12

CC 4.0 BY-SA版权

文章标签：机器学习

本文链接：https://blog.csdn.net/YHKKun/article/details/137057987

本文解释了统计学中的解释方差(ExplainedVariance)和相关概念，如在回归分析中的应用，以及R²和决定系数的计算。同时介绍了主成分分析(PCA)中explainedvarianceratio，用于评估主成分对数据变异性的解释程度，是降维和保持数据信息的重要工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Explained variance（解释方差）是一个统计学概念，核心思想都是用来衡量模型对数据变化的解释能力或预测准确度。

在回归分析（如线性回归）中，explained variance 可以用来评估模型预测值相对于实际观测值的好坏程度。explained variance 计算公式：

其中：
- y 是实际的目标变量（即真实值）；
- $y\hat{}$ 是模型预测的输出值；
- 表示残差平方和除以样本数量（也即是误差项的标准差的平方）；
- 是目标变量 $ y $ 的方差。

explained variance score 越接近1，表示模型对数据集变化的解释能力越强，预测效果越好；越接近0，则表明模型对数据变化的解释能力越弱。

另一种相关的评估指标是R²（决定系数），它实际上是explained variance的百分比形式：

其中：
- RSS（Residual Sum of Squares）是残差平方和；
- TSS（Total Sum of Squares）是总平方和，即所有观测值与其平均值差的平方和；
- 当时，模型完美拟合数据，即explained variance达到最大。

在主成分分析（PCA）中，explained variance ratio也有类似的概念，它指的是各个主成分解释整个数据集中变异性的比例，它用来量化每个主成分对于原始数据集变异性（variance）的解释程度，即各主成分的重要性。

explained variance ratio是每个主成分的特征值除以所有特征值的总和，从而得出该主成分解释了总方差的多少比例。具体地，第𝑖个主成分的explained variance ratio 计算方式为：

其中，

𝜆𝑖是第 𝑖个特征值，
𝑛是原始变量的数量。

由于所有特征值的和等于原始数据集的总方差，所以所有主成分的explained variance ratio之和必定为1，表示它们共同解释了数据集的所有变异性。

举个栗子，如果PCA结果显示第一个主成分（PC1）的explained variance ratio为0.75，意味着大约75%的原始数据的变异可以用这个单一的新变量（PC1）来解释。后续的主成分会依次解释剩余的部分，直到所有主成分加起来能解释数据集中的全部变异性。通过这种方式，我们可以依据explained variance ratio来选择保留多少个主成分来重构数据，以达到降维的同时尽量保持数据原有的信息含量。