集成学习
集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到更好的目的。集成学习有两个主要的问题需要解决,第一是如何得到若干个个体学习器,第二是如何选择一种结合策略,将这些个体学习器集合成一个强学习器。
支持向量机
支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。
具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。
软间隔
软间隔SVM允许部分点分布在间隔内部,此时可以解决硬间隔SVM的问题(只需将异常点放到间隔内部即可),因为间隔内部的点对于SVM的思想来说是一种错误,所以我们希望位于间隔内部的点尽可能少,其实是一种折中,即在错误较少的情况下获得不错的划分超平面
核函数
假设函数Ф是一个从低维特征空间到高维特征空间的一个映射,那么如果存在函数K(x,z), 对于任意的低维特征向量x和z,都有:K(x,z)=θ(x)*θ(z),称函数K(x,z)为核函数(kernal function)
核函数是一个低纬的计算结果,并没有采用低纬到高维的映射。只不过核函数低纬运算的结果等价于映射到高维时向量点积的值。
VC维
VC维的直观定义
- 对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的2^h种形式分开,则称函数集能够把h个样本打散。
- 函数集的VC维就是它能打散的最大样本数目。
- 若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。
VC维是一个评判模型复杂程度的工具。 VC维越大则模型的复杂度越高。
生成式模型
生成式模型:由数据学习联合概率密度分布P(X,Y),对X和Y的联合分布概率p(x,y)建模,然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:P(Y|X)= P(X,Y)/ P(X)(贝叶斯概率)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率P(Y|X),再利用它进行分类,过贝叶斯公式来求得P(Y|X),然后选取使得P(Y|X)最大的Y。
生成式模型一般会对每一个类建立一个模型,有多少个类别,就建立多少个模型。比如说类别标签有{猫,狗,猪},那首先根据猫的特征学习出一个猫的模型,再根据狗的特征学习出狗的模型,之后分别计算新样本X跟三个类别的联合概率P(Y|X),然后根据贝叶斯公式:分别计算 P(Y|X),选择三类中最大的 P(Y|X)作为样本的分类。
判别式模型
判别式模型:由数据直接学习决策函数Y=f(X)或者对条件概率分布P(Y|X)建模,即判别模型。基本思想是有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。
判别模型根据训练数据得到分类函数和分界面,比如逻辑回归模型会得到一个分类函数,SVM模型得到一个分界面。得到从x到y的映射,训练出的模型会判断在属性值x出现的情况下y的概率,计算条件概率 P(y|x),新样本的分类的最终结果就是最大的 P(y|x)。
判别式模型是对条件概率建模,学习不同类别之间的最优边界,无法反映训练数据本身的特性,能力有限,其只能告诉我们分类的类别。
生成式模型和判别式模型各有什么优缺点?
生成式模型的优点:过拟合的几率比较小,尤其是当你采集的数据的分布与真实世界整体数据集的分布是相近的适合,基本上不用担心过拟合问题。
生成式模型的缺点:
- 因为生成式模型需要生成Y的分布函数,而这个分布函数可能会受到一些异常点的影响变得不那么准确
- 为了使生成的分布函数与真实世界中的分布函数尽可能接近,需要大量的数据来生成模型。
- 生成式模型比判别式模型计算量更大。
4.判别式模型的优缺点
优点:在小数据集上表现效果很好,但是要注意过拟合问题。另外,计算量比生成式模型小。
缺点:没有生成模型的优点。
监督学习是判别式方法,无监督学习是生成式方法?
不正确,监督学习与无监督学习的区别是训练集有没有人为标注,有标注的是监督学习否则为无监督学习。而判别式方法与生成式方法是两种建模方法,这之间没有必然的联系。
分类是判别式方法,聚类是生成式方法?KNN,K-means分别是什么方法?
分类是一种判别式方法。
KNN是通过计算未知样本与所有样本之间的距离,以最近邻者的类别作为决策位置样本类别的唯一依据。是一种分类算法。
k-means算法是聚类算法,属于无监督学习。