【漫话机器学习系列】237. TSS总平方和-CSDN博客

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/147675244

深度理解 TSS（总平方和）：公式、意义与应用

在机器学习与统计建模领域，评价模型好坏的重要指标之一就是方差与误差分析。其中，TSS（Total Sum of Squares，总平方和）扮演着非常关键的角色。今天我们就来深入剖析 TSS，从公式理解到实际应用，一步步搞懂它！

TSS（总平方和） 是指样本数据中各观测值与其均值之间差异的总和，具体来说，是每个观测值到整体均值的偏差的平方，再将这些平方累加起来。

TSS可以用来衡量数据的总体变异性，也就是说：原始数据本身波动有多大？

根据本文开头的图示，TSS 的定义公式为：

$TSS = \sum_{i=1}^n (y_i - \overline{y})^2$

其中：

图中的标注也特别清晰：

这张图用简单的箭头标明了各元素的含义，非常友好。

也许你会好奇，为什么要对偏差进行平方呢？原因有两点：

因此，平方是必须的处理方式。

TSS 衡量的是总体数据的分散程度。

在回归分析中，TSS 是衡量模型拟合优度（比如 $R^2$ 决定系数）的基础部分。

在回归分析中，除了 TSS，还有两个重要的平方和：

三者之间有着重要的关系：

TSS = ESS + RSS

这意味着，TSS 可以分解为模型解释的部分（ESS）和模型无法解释的残差部分（RSS）。

简而言之：

假设我们有以下数据：

计算过程如下：

$TSS = 4 + 0 + 4 = 8$

因此，总平方和 TSS = 8。

TSS 最常见的应用场景包括：

评估回归模型的拟合优度：TSS 用于计算 R2R^2 值。
$R^2 = 1 - \frac{RSS}{TSS}$
$R^2$ 越接近 1，说明模型越好。
特征工程中筛选特征：分析某个特征是否能有效减少数据波动。
聚类分析：衡量聚类效果，比如在 K-means 聚类中，也有类似的平方和概念。