台大李宏毅

1:Regression-Case Study

为什么在Loss function中,只考虑对w的正则化,而不考虑对b的正则化?

因为b是一条水平线,b对Loss function是否平滑几乎不产生影响。

 

1-Regression Demo

Ada-Gradient时会详细讲解这个技巧:小的learning rate导致要很多次迭代才能达到最优解,大的learning rate有可能会有巨幅震荡,也无法达到最优解。有一个调参的技巧,就是对w和b克制化的learning rate。

lr = 1

....................................

lr_b = 0

lr_w = 0

....................................

lr_b = lr_b + b_grad ** 2

lr_w = lr_w + w_grad ** 2

.................................

# update parameters.

b = b - lr/np.sqrt(lr_b)* b_grad

w = w- lr/np.sqrt(lr_w)* w_grad

 

2:Where does the error come from?
 

error due to “bias” and error due to “variance”。

简单的model(model set比较小,这个小的model set可能根本不包含真实的target model),bias大,variance小;

复杂的model(model set比较大,这个大的model set可能就包含真实的target model),bias小,variance大。

 

如果error来自于variance很大,那么就是overfitting;

如果error来自于bias很大,那么就是underfitting;

 


What to do with large bias?

1、Diagnosis:

(1) If your model cannot even fit the training examples, then you have large bias.----> Underfitting.

(2) If you can fit the training data, but large error on testing data, then you probably have large variance. ----> Overfitting.

2、For bias, redesign your model:

(1) Add more features as input;

(2) A more complex model

 

What to do with large variance?

1、 More data(very effective, but not always practical)可以自己做训练数据,例如翻转、加噪声等。

2、 Regularization (希望参数变化较小,曲线变平滑),但是可能会使你的model set 不包含target model,可能会伤害bias。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值