(九)GD、L1和L2、MAP、MLE、Lasso

一、GD

GD

  • 梯度稳定,所有样本的梯度

SGD

  • 梯度不稳定(一个样本,可能为噪声样本),学习率要小

mini-batch GD

  • 折中方案
  • 既不考虑所有样本,节省时间成本
  • 相对稳定,M需要去尝试

二、从LR看L1、L2

当给定的数据线性可分的时候,LR的参数会趋于正无穷

  • 参数越大,模型越复杂
  • 过拟合的模型参数会很大
  • 正则限制参数变得太大
  • 线性回归,w很大的时候,对输入的数据噪声会很敏感,造成很小的噪声结论和之前完全不一样,模型容易过拟合。

2.1 模型复杂度

  • 模型本身的选择

    - 简单数据用简单模型
    - 复杂数据用复杂模型
    
  • 模型参数的个数

    - dropout
    
  • 模型的参数空间选择

    - L1、L2:参数比较小,限制参数的范围
    
  • 模型拟合过少的样本

    - 需要更多的样本
    

2.2 正则

在参数空间中做限制,把一些不想关心的参数滤除掉,从剩下的参数中选(简化模型)。
L1产生稀疏的权值,L2产生平滑的权值

  • L1能产生等于0的权值,即能够剔除某些特征在模型中的作用(特征选择),即产生稀疏的效果
  • L2可以迅速得到比较小的权值,但很难收敛到0,所以产生的是平滑的效果。

L1

  • 是很多参数变为0,解是稀疏的解
  • 稀疏,选择性的作用,将不好的参数直接去掉
  • L1的权值更新,每次更新一个固定的值,会更新到0
  • L2的权值每次减少为上一次的一定比例,会很快收敛到很小的值,但是不会收敛到0

三、K折交叉验证

  • 超参数用交叉验证(求K个准确率的平均)来选择一个合适的值。
  • Grid search:可以完全并行很耗资源
for lamda1 in iter_1:
	for lamda2 in iter_2:
		(lamda1,lamda2) 使用交叉验证求平均准确率

四、MAP与MLE

  • MAP:argmax P(w|D) = argmax P(D|w) * P(w)
  • MLE:argmax P(D|w)
  • P(w)服从高斯分布时,MAP会变成MLE+L2正则
  • P(w)服从Laplace分布时,MAP会变成MLE+L1正则
  • 当数据非常多的时候,MAP趋近与MLE(当样本很多时,先验的作用会越来越小,大数定理)

五、Lasso Regression

  • 当样本数N < 样本的维度D时,模型容易过拟合,用lasso进行特征选择,也能提高可解释性。
  • 线性回归 + L1
  • L1的梯度,0处不可导,sub gradient decent,在[0,1]之间随机取一个,可以为0
  • 对于lasso,可以采用coordinate descend进行优化
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值