决策树:
类似二叉树 对于一堆数据进行层层分类判断
为监督学习
(递归过程)
根据表数据设置每个节点阈值进行层层分类
ID3:有信息熵决定节点。每个节点熵值最小(即判断最准确)
分类过细 容易过拟合
C4.5: ID3除以信息增益(越细越大)
CART:分类回归树,使用GINI指数(总体内包含的类别越杂乱越大),选取最小的方案。 回归(分类到每一个节点只有一个类别时停止)。同样会过拟合
均可采用交叉验证法选取最小错误率的决策树。
随机森林:由多个弱分类器组合成强分类器
每棵树训练的时候,随机有放回地取全部数据的一部分进行学习。
尽可能随机!!!然后产生不同属性的决策树进行“民主”决策。
先行采样 再列采样。
SVM:
简而言之寻找超平面,以最大间隔把两类样本分开
最后变为优化问题:
由拉格朗日变化(凸优化):
KKT条件:
SVM:
拉格朗日+强对偶:
序列最小优化(每次优化一个):
求偏导:
软间隔:解决不可完全线性分割问题,允许部分样本点不满足条件
拉格朗日+强对偶
核函数:解决低纬度非线性的分类
SVM优缺点:
PS:
贝叶斯公式: