AML 2

最新推荐文章于 2023-10-03 03:02:34 发布

panthera_1

最新推荐文章于 2023-10-03 03:02:34 发布

阅读量343

点赞数

分类专栏： LAMP 文章标签： ml 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/panthera_1/article/details/84140455

版权

LAMP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

AML 2 典型方法

线性模型，通过属性的线性组合来进行预测的函数fx=wTx+b,简单，基本，可理解性好

广义线性模型，y=g-1wTx+b,g-1单调可微的联系函数。

支持向量机，将训练样本分开的超平面的线性分类器正中间的最好。鲁棒性最好，泛化能力最强。超平面方程：wTx+b=0

找到参数w和b 使得r最大，argmax2||w||， s.t. yiwTxi+b≥1 ,I =1,2,…,m

→argmin12w2， s.t. yiwTxi+b≥1 ,I =1,2,…,m 这是凸二次规划问题。

对偶问题对上式使用拉格朗日乘子法可得到对偶问题。对每条约束添加拉格朗日乘子αi≥0，则得到Lw,b,α=12w2+i=1mαi(1-yiwTxi+b)，

令Lw,b,α对w和b 的偏导为零可得

w=i=1mαiyixi，0=i=1mαiyi

带回得到maxαi=1mαi-12i=1mj=1mαiαjyiyjxiTxj,

s.t. i=1mαiyi=0,αi≥0, i=1,2,…,m

特征空间映射：若不存在一个能正确划分两类样本的超平面，则将样本从原始空间映射到一个更高维的特征空间，使样本在这个特征空间内线性可分。设样本x映射后的向量为∅(x)，划分超平面为fx=wT∅x+b

原始问题：minw,b12w2，s.t. yiwT∅xi+b≥1, i=1,2,…,m

对偶问题：maxαi=1mαi-12i=1mj=1mαiαjyiyj∅xiT∅(xj)

s.t. i=1mαiyi=0,αi≥0, i=1,2,…,m

预测：fx=wT∅x+b=i=1mαiyi∅xiT∅xj+b

核函数：设计kxi,xj=∅xiT∅xj,绕过显示考虑特征映射、以及计算高维内积的困难。Mercer定理：若一个对成函数所对应的核矩阵半正定，则它就能作为核函数来使用。

正则化（regularization）:

决策树：分而治之，自根至叶的递归过程。在每个中间节点寻找一个划分属性。停止条件：1、当前节点包含的样本全属于同一类别；2、当前属性集为空，或是所有样本在所有属性上去值相同，无法划分；3、当前节点包含的样本集合为空，不能划分。剪枝是决策树针对过拟合问题的主要手段。

缺失值数据的处理：样本赋权，权重划分。

神经网络。BP算法。

针对局部极小误差问题的常见策略：不同的初始参数、模拟退火、随机扰动、遗传算法。

DML，提升学习能力，增加了过拟合风险，增加计算开销。

最重要的作用，表示学习（无需人工设计特征），端到端学习。

贝叶斯分类

贝叶斯决策论，Pcx=PcPxcPx

判别式vs.生成式

集成学习 现实任务中具有极好的性能

序列化方法AdaBoost GradientBoost LPBoost

并行化方法Bagging Random Forest Random Subspace

聚类

无监督学习任务中研究最多、应用最广

将数据样本划分成若干个通常不相交的簇cluster

没有评定好坏的绝对标准

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。