在特定条件下,对角协方差矩阵的高斯判别分析 (GDA) 和使用单变量高斯分布的 Naive Bayes 分类器确实是等价的。这是因为它们都依赖于一个共同的假设:特征之间是条件独立的。但它们仍是不同的概念:单变量高斯分布用于描述单个特征的分布,而对角协方差矩阵是多维空间中各特征之间相互独立的一种表现形式。
单变量高斯分布 (Univariate Gaussian Distribution)
单变量高斯分布是用来描述单个实数随机变量 x x x 的概率分布。其形式是:
p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) p(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
其中, μ \mu μ 是均值, σ 2 \sigma^2 σ2 是方差。
在 Naive Bayes 模型中,如果特征是连续实数值的,例如 x d ∈ R x_d \in \mathbb{R} xd∈R,我们可以假设每个特征 x d x_d xd 在给定类别 y y y 下服从一个单变量高斯分布。这意味着我们会为每个特征单独建模,假设它们的分布相互独立。具体来说,对于类别 c c c 的每个特征 x d x_d xd,有:
p ( x d ∣ y = c ) = N ( x d ∣ μ d c , σ d c 2 ) p(x_d | y = c) = \mathcal{N}(x_d | \mu_{dc}, \sigma^2_{dc}) p(xd∣y=c)=N(xd∣μdc,σdc2)
高斯判别分析 (GDA) 和 对角协方差矩阵
高斯判别分析 (GDA) 是一种用于分类的模型。
它假设每个类别 c c c 下的特征向量 x x x 服从一个多变量高斯分布,形式为:
p ( x ∣ y = c ) = N ( x ∣ μ c , Σ c ) p(x | y = c) = \mathcal{N}(x | \mu_c, \Sigma_c) p(x∣y=c)=N(x∣μc,Σc)
其中:
- μ c \mu_c μc 是类别 c c c 的均值向量。
- Σ c \Sigma_c Σc 是类别 c c c 的协方差矩阵,捕捉了不同特征之间的线性相关性。
在 GDA 中,如果我们假设所有特征是条件独立的(即 Naive Bayes 的独立性假设),那么协方差矩阵 Σ c \Sigma_c Σc 将会变成对角矩阵。这是因为:
- 对角线上的元素对应的是每个特征的方差。
- 非对角线的元素是协方差,如果特征是独立的,那么这些协方差将为零。
因此,对角协方差矩阵形如:
Σ c = [ σ 1 c 2 0 … 0 0 σ 2 c 2 … 0 ⋮ ⋮ ⋱ ⋮ 0 0 … σ D c 2 ] \Sigma_c = \begin{bmatrix} \sigma^2_{1c} & 0 & \dots & 0 \\ 0 & \sigma^2_{2c} & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \sigma^2_{Dc} \end{bmatrix} Σc= σ1c20⋮00σ2c2⋮0……⋱…00⋮σDc2
在这个情况下,多变量高斯分布简化为多个单变量高斯分布的乘积,类似于 Naive Bayes 假设特征条件独立的情形。
单变量高斯分布和对角协方差矩阵的联系
- 单变量高斯分布表示我们对单个特征 x d x_d xd 的条件分布进行建模。每个特征都有自己的均值和方差。
- 对角协方差矩阵表示的是,如果所有特征在类别条件下是相互独立的(即没有协方差),我们可以把每个特征视为单独的、独立的高斯分布。此时的多变量高斯分布实际上等价于多个独立的单变量高斯分布的乘积。
所以,当 Naive Bayes 模型假设各个特征是独立的、且每个特征都服从单变量高斯分布时,这与高斯判别分析中假设协方差矩阵是对角矩阵的情况是等价的。