集成学习
多个弱学习器构成一个更强大的模型,提高稳定性和泛化能力
支持向量机
将低维数据映射到高维空间,用来分类。但实际上往往因为高维空间计算复杂,经常用核函数代替。
软间隔
允许在存在一定错误的情况下,找到一个间隔面将它们分类,好处是有较强的泛化能力,不容易过拟合。
核函数
在低维空间中进行复杂的性线性映射,将原始的特征空间映射到高维,用来分类。大概包括三类:
线性核函数:
$k(\mathbf{x}_i,\mathbf{x}_j) = \mathbf{x}_i^\top \mathbf{x}_j$
多项式核函数:
$k(\mathbf{x}_i,\mathbf{x}_j) = (\gamma \mathbf{x}_i^\top \mathbf{x}_j + r)^d$
其中,$\gamma$ 是一个可调节的参数,$r$ 是一个常数偏移量,$d$ 是多项式的阶数。
高斯核函数
(也称为径向基函数(RBF)核函数):$k(\mathbf{x}_i,\mathbf{x}_j) = \exp(-\frac{|\mathbf{x}_i - \mathbf{x}_j|^2}{2\sigma^2})$
VC维
衡量机器学习模型能拟合的数据集大小的指标。vC维越大.越强的表现力.也容易过拟合。
生成式模型
训练数据部分缺失时,通过该模型可概率推断出来缺失数据,常用于图像处理。
判别式模型
.
直接学习输入特征和标签,预测映射关系,可以直接进行分类和回归。
生成式和判别式模型各有什么优缺点?
生:
优点是可以对数据进行建模、预测缺失数据。
缺点是当训练数据确实过少时,难以进行推广,有时候甚至会出现过拟合。
判:
优点是能够很好地处理复杂分类问题。
缺点是丢失一部分数据时,有可能拟合程度不够充分。
监督学习是判别式方法,无监督学习是生成式方法?
No,监督学习和无监督学习都可以使用判别式模型或生成式模型。判别式模型通常用于监督学习,而生成式模型通常用于无监督学习,但并不是绝对的。
分类是判别式方法,聚类是生成式方法?KNN,K-means分别是什么方法?
NO,分类和聚类都可以使用判别式模型或生成式模型。KNN是一种判别式方法,它通过找到最近的训练样本来对新数据进行分类。K-means是一种聚类算法,它试图将相似的数据分组到一起,使得每个组的数据点与其他组的数据点尽可能的不相似。 K-means是一种生成式方法,因为它通过建模数据的分布来对数据进行聚类。