1.集成学习:组合学习出来的多个有偏好的模型,以此来得到一个更加全面并且贴近现实的强监督模型。这个过程叫做集成学习。
2.支持向量机:一种二分类模型,定义在特征空间的间隔最大的线性分类器。作用是找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。
3.软间隔:当两组数据几乎是完全线性可分时,我们可以找出一个决策边界在训练集上的分类有较小的训练误差,这两种数据可以说存在软间隔。
4.核函数:将原始空间中的向量作为输入向量,并返回特征空间中的向量的点积的函数称为核函数。
5.VC维:用来衡量一个模型的复杂度。对于一个指示函数集,存在n个样本能被函数集中的函数按照所有可能的2ⁿ种形式分开,这个函数集能将n个样本打散,VC维就是它能打散的最大样本数。
6.生成式模型:由数据学习联合概率密度分布P(x,y),然后生成条件概率分布P(y|x),或者直接学得一个决策函数 Y=f(x),用作模型预测。
7.判别式模型:由数据直接学习决策函数f(x)或者条件概率分布P(y|x)作为预测。
8.生成式模型和判别式模型的优缺点:
判别式模型 | 生成式模型 | |
还原联合分布率 | 不能 | 能 |
学习的收敛速度 | 慢 | 快 |
学习成本 | 高 | 低 |
实践情况 | 好 | 坏 |
9.监督学习可以用判别式方法或者生成式方法,无监督学习可以用生成式方法
10.分类是判别式方法,聚类是生成式方法。KNN是有监督学习的分类算法,是判别式方法。K-means是无监督学习的聚类算法,是生成式方法。