李宏毅机器学习笔记(二)

 

 

(解释:在测试数据集20层network比56层的loss 更小,考虑over fitting(过拟合)的原因? 答案是不一定的,要再看看训练集,训练集中20层layer还是比56层低。对于训练集来说,20层能拟合的数据,56层网络(函数更为复杂精细)应该更可以拟合精确使得loss function 的值更小,但现在更大,原因应该不是model bias 的问题,所以应该是optimization issue。也不是过拟合的问题,过拟合主要的现象是在训练集loss小测试集loss大) 

 Overfitting

解决over fitting方法:

(1)增加训练集

(2)Date augmentation

(3)不要让你的model more flexible

         constrain your model

         但是不要constrain  too much

 

 

  

 

 如果在critical point 是属于Saddle point,那么可以通过找Hessian matrix 的eigenvalue 和eigenvector进行下一步梯度下降。

   

 

 

 Full batch:等于没有bach  只update一次参数,时间长

Batch size =1 :看1个example就update 一次参数

 

 

 

 

 

 

 vanilla :一般的

 加上

 

 

 

 

 

 解释:learning rate大的时候会在local minima的梯度线左右两旁来回反复横跳(可以想象成山谷),learning rate 小的时候可以收敛到minima对于的梯度线上,但由于rate太小,始终无法靠近目标点(“×”)。

 

 

 

 

 

 

 

为什么要用  warm up的可能解释?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值