期末复习问题总结
准备期末考试ing,遇到的问题觉得有意思就随手记录一下:
1. 机器学习中内积的应用举例
内积(Dot Product)是两个向量之间的一种运算。计算方法是将两个向量对应位置的元素相乘,然后将结果相加。机器学习中经常用于表示特征之间的关系、相似度或进行线性变换。
-
特征表示与权重的内积:
在线性模型中,特征向量 x \mathbf{x} x 和权重向量 w \mathbf{w} w 之间的内积表示了特征与权重的关系。例如,线性回归模型的预测可以表示为:
y p r e d = w ⋅ x + b y_{pred} = \mathbf{w} \cdot \mathbf{x} + b ypred=w⋅x+b
其中, ⋅ \cdot ⋅ 表示内积。
-
相似度计算:
内积还可用于计算向量之间的相似度。例如,在文本处理中,可以使用内积计算两个词向量之间的相似度。设 v 1 \mathbf{v}_1 v1 和 v 2 \mathbf{v}_2 v2 分别是两个词的词向量,它们的相似度可以通过内积计算:
y s i m i l a r = v 1 ⋅ v 2 y_{similar} = \mathbf{v}_1 \cdot \mathbf{v}_2 ysimilar=v1⋅v2
如果相似度越大,表示两个词在语义上越相似。
卷积神经网络CNN、自注意力机制QKV其实都可以看做是相似度的比较
-
核函数的内积表达:
在支持向量机(SVM)等算法中,内积在核函数中扮演重要角色。例如,径向基函数(Radial Basis Function, RBF)核的内积表达为:
K ( x 1 , x 2 ) = exp ( − ∥ x 1 − x 2 ∥ 2 2 σ 2 ) K(\mathbf{x}_1, \mathbf{x}_2) = \exp\left(-\frac{\|\mathbf{x}_1 - \mathbf{x}_2\|^2}{2\sigma^2}\right) K(x1,x2)=exp(−2σ2∥x1−x2∥2)
这里, ∥ x 1 − x 2 ∥ \|\mathbf{x}_1 - \mathbf{x}_2\| ∥x1−x2∥ 表示向量之间的欧几里得距离。内积的形式使得核方法能够高效地在高维空间中进行非线性变换。
2. 在低维空间中线性不可分的样本,在高维空间中线性可分,为什么。
在低维空间中,一些样本可能因为特征之间的复杂关系而难以用一个线性的决策边界进行分类,即线性不可分。然而,通过将这些样本映射到高维空间,我们有可能找到一个在高维空间中的线性决策边界,使得原本线性不可分的样本在高维空间中变得线性可分。
-
低维空间中线性不可分的原因:
在低维空间中,当样本的类别无法通过一个线性决策边界完美地分隔开时,这可能是因为数据点在低维度下的分布形状不具备线性可分性。例如,对于某些非线性的数据分布,一条直线可能无法很好地划分两个类别。 -
高维空间中线性可分的原因:
通过将数据映射到高维空间,我们增加了特征的数量,从而提高了数据的表达能力。在高维空间中,数据点更有可能被一个超平面(线性决策边界的推广)分隔开。这是因为高维空间中,两个点之间的距离可能会更大,使得它们更容易被一个超平面分隔。
一种常见的升维方法是使用核技巧(Kernel Trick),其基本思想是不直接计算在高维空间中的映射,而是通过一个核函数(kernel function)来隐式表示这个映射,从而避免了在高维空间中的直接计算。
数学上,给定两个样本的特征向量 x i \mathbf{x}_i xi 和 x j \mathbf{x}_j xj,它们在高维空间中的内积可以通过核函数 K ( x i , x j ) K(\mathbf{x}_i, \mathbf{x}_j) K(xi,xj) 来表示:
K ( x i , x j ) = ϕ ( x i ) ⋅ ϕ ( x j ) K(\mathbf{x}_i, \mathbf{x}_j) = \phi(\mathbf{x}_i) \cdot \phi(\mathbf{x}_j) K(xi,xj)=ϕ(xi)⋅ϕ(xj)
其中, ϕ ( x ) \phi(\mathbf{x}) ϕ(x) 表示将 x \mathbf{x} x 映射到高维空间的函数。核函数的选择非常重要,常见的核函数包括线性核、多项式核、高斯核等。通过使用核函数,支持向量机等算法可以在高维空间中构建一个有效的决策边界,从而在原始低维空间中线性不可分的问题变得线性可分。
3.EM算法中优化GMM时会出现协方差矩阵不可逆的情况。这种情况出现的原因一般是什么?
与最大化对数似然函数的基于梯度的方法相同,算法必须防止似然函数因为某些情况而变得奇异,即使高斯分布的参数退化到一个具体的数据点。
在EM算法中优化高斯混合模型(Gaussian Mixture Model,GMM)时,协方差矩阵不可逆的情况通常是由于样本点在某个混合成分上非常集中,矩阵的逆可能不存在。
一个矩阵被称为奇异矩阵,如果它的行列式为零。行列式为零表示矩阵是线性相关的,它的列之间存在某种线性依赖关系。这在实际数据中可能发生,特别是当数据集中有冗余或高度相关的特征时。
解决这个问题的方法之一是对协方差矩阵进行正则化,以确保它始终是可逆的。正则化可以通过在计算协方差矩阵时添加一个小的正定矩阵(如单位矩阵的倍数)来实现。这样可以防止协方差矩阵变得过于接近奇异,同时保持模型的稳定性。
是的,你的理解基本正确。在使用基于梯度的方法(如梯度上升)最大化对数似然函数时,需要注意似然函数的奇异性问题。奇异性指的是似然函数在某些情况下可能变得非常尖锐或退化,导致优化过程出现问题。
为了避免这种奇异性,可以采取一些方法确保似然函数在优化过程中保持光滑,从而提高算法的稳定性和收敛性,例如:
-
协方差矩阵正则化: 在计算协方差矩阵时添加一个小的正定矩阵,以确保矩阵始终可逆,防止退化。
-
对协方差矩阵进行修正: 当估计的协方差矩阵接近奇异时,可以对其进行修正,例如通过增加一个小的偏置项。
-
限制协方差矩阵的最小特征值: 可以设置一个最小特征值的阈值,确保协方差矩阵不会变得太接近奇异。