AML 2 典型方法
线性模型,通过属性的线性组合来进行预测的函数fx=wTx+b,简单,基本,可理解性好
广义线性模型,y=g-1wTx+b,g-1单调可微的联系函数。
支持向量机,将训练样本分开的超平面的 线性分类器 正中间的最好。鲁棒性最好,泛化能力最强。超平面方程:wTx+b=0
找到参数w和b 使得r最大,argmax2||w||, s.t. yiwTxi+b≥1 ,I =1,2,…,m
→argmin12w2, s.t. yiwTxi+b≥1 ,I =1,2,…,m 这是凸二次规划问题。
对偶问题 对上式使用拉格朗日乘子法可得到对偶问题。对每条约束添加拉格朗日乘子αi≥0,则得到Lw,b,α=12w2+i=1mαi(1-yiwTxi+b),
令Lw,b,α对w和b 的偏导为零可得
w=i=1mαiyixi,0=i=1mαiyi
带回得到maxαi=1mαi-12i=1mj=1mαiαjyiyjxiTxj,
s.t. i=1mαiyi=0,αi≥0, i=1,2,…,m
特征空间映射:若不存在一个能正确划分两类样本的超平面,则将样本从原始空间映射到一个更高维的特征空间,使样本在这个特征空间内线性可分。设样本x映射后的向量为∅(x),划分超平面为fx=wT∅x+b
原始问题:minw,b12w2,s.t. yiwT∅xi+b≥1, i=1,2,…,m
对偶问题:maxαi=1mαi-12i=1mj=1mαiαjyiyj∅xiT∅(xj)
s.t. i=1mαiyi=0,αi≥0, i=1,2,…,m
预测:fx=wT∅x+b=i=1mαiyi∅xiT∅xj+b
核函数:设计kxi,xj=∅xiT∅xj,绕过显示考虑特征映射、以及计算高维内积的困难。Mercer定理:若一个对成函数所对应的核矩阵半正定,则它就能作为核函数来使用。
正则化(regularization):
决策树:分而治之,自根至叶的递归过程。在每个中间节点寻找一个划分属性。停止条件:1、当前节点包含的样本全属于同一类别;2、当前属性集为空,或是所有样本在所有属性上去值相同,无法划分;3、当前节点包含的样本集合为空,不能划分。剪枝是决策树针对过拟合问题的主要手段。
缺失值数据的处理:样本赋权,权重划分。
神经网络。BP算法。
针对局部极小误差问题的常见策略:不同的初始参数、模拟退火、随机扰动、遗传算法。
DML,提升学习能力,增加了过拟合风险,增加计算开销。
最重要的作用,表示学习(无需人工设计特征),端到端学习。
贝叶斯分类
贝叶斯决策论,Pcx=PcPxcPx
判别式vs.生成式
集成学习 现实任务中具有极好的性能
序列化方法AdaBoost GradientBoost LPBoost
并行化方法Bagging Random Forest Random Subspace
聚类
无监督学习任务中研究最多、应用最广
将数据样本划分成若干个通常不相交的簇cluster
没有评定好坏的绝对标准