机器学习课程笔记

随机梯度下降(SGD)的原理:

对L(w)进行一阶泰勒展开,w[t]是当前自变量值:

L(w[t]) + L(w[t])' * (w[t+1]-w[t])

如何让右边的最小化?答:L(w[t])是常量定值,L(w[t])是向量(也是常量定值),w[t+1]-w[t]是向量,两个向量相乘如何最小化:当两个向量方向相反时,乘积最小化;因此"w[t+1]-w[t]=-L(w[t])*学习率" 时,乘积最小化,等价于L(w)近似最小化;

 

牛顿法:

对L(w)做二阶泰勒展开,有w的二次项,可以直接求闭式解(一步到位求出来)

缺点:闭式解里有二阶导矩阵的逆矩阵(Hessian矩阵),计算量较大;

改进:拟牛顿法,避免求这个Hessian矩阵;

 

神经网络表达能力强的理论基础:带有非线性变换的神经网络(即便只有一层),只要节点足够多,是可以拟合任意复杂的函数的

 

SVM: 设计之初就考虑了留出边界地带的问题;(为的是让margin上或离margin近的点,有点儿微小扰动,不会被分错,即鲁棒性好)

映射到高维空间后,原先在低维空间里挤在一起的点们,被拉到了更大的空间里,变得更稀疏(彼此离得更远),因此很容易可分了;

 

Boosting的好性质:无过拟合现象:训练误差越小(即使小至0),测试集误差也越小;

 

集成学习:

应用十分广泛;

引入Diversity: 各种方式;

用SVM做基础分类器进行集成学习,为什么效果差:因为1. SVM是求确定解的,没有多少随机性在里面;2.每个SVM只有边界上的几个样本起作用,所以样本Sampling的效果就不明显了;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值