1.感知机
线性分类模型,可对问题做二类分类。
学习的策略是极小化损失函数,采用随机梯度下降法学习
感知机是在特征向量空间中求解最优分离界面(误分类点到该界面的距离总和最小)
2.k近邻法
该方法利用训练集合划分特征向量空间,其分类规则是由实例的k个邻近的训练实例中的多数类决定实例的类型,分类决策往往是少数服从多数
实现方法如kd树,依次轮流切割特征向量空间的N个维度,以二叉树节点表示空间中的一个划分。
3.朴素贝叶斯
朴素贝叶斯是基于所有条件的独立性这一假设的,这一假设大大简化了贝叶斯公式中难以计算的部分。
即P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn) ==> P(C|F1F2...Fn) =P(F1|C)P(F2|C) ... P(Fn|C)P(C) / P(F1F2...Fn)
4.决策树
用于分类的树型结构,其学习过程实质上是从训练集合中归纳出一组分类规律
特征选择一般是基于集合对特征的信息增益或信息增益比的
生成算法有ID3算法和C4.5算法
两者都采用贪心策略挑选特征建树,分别基于信息增益和信息增益比
一般决策树还会做剪枝操作
另有基于基尼系数的CART算法。该算法递归划分输入空间构建二叉树
5.logistic回归和最大熵模型
logistic回归模型是由输入的线性函数表示的输出的对数几率模型
熵最大原理认为熵最大的模型是最好的。
6.支持向量机
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的泛化能力。
其最简单的情况是线性可分支持向量机,或硬间隔支持向量机。构建它的条件是数据线性可分,学习策略是最大间隔法,可表示为凸二次规划。
线性可分支持向量机的最优解存在而唯一,位于间隔边界上的实例点为支持向量。最优分离超平面与支持向量完全决定。
当训练数据是近似线性可分时,使用线性支持向量机或软间隔支持向量机,引入松弛变量。
对于输入空间中的非线性分类问题,可以通过非线性转换将其转化为高维特征空间中的线性分类问题。
从输入空间到特征空间的转化称为核函数,用核函数取代内积得到的是非线性支持向量机。
SMO算法是一张快速的支持向量机学习方法。
7,提升方法
提升方法将弱学习方法提升为强学习方法
提升树以分类树和回归树为基本分类器。
8.EM方法
含有隐变量的期望极大算法。
9.隐马尔可夫模型
10.条件随机场