李宏毅机器学习笔记——回归

回归

  1. A set of function: y = b + w ⋅ x c p y=b+w\cdot x_{cp} y=b+wxcp

  2. Goodness of function: L ( f ) = ∑ ( y ^ − f ( x c p n ) ) 2 L(f)=\sum(\hat{y}-f(x_{cp}^n))^2 L(f)=(y^f(xcpn))2,
    Pick the “best” function f ∗ = a r g min ⁡ f L ( f ) f^*=arg \min_{f} L(f) f=argfminL(f)

    Gradient Descent: w 1 ← w 0 − η ∂ L ∂ w ∣ w = w 0 , b = b 0 , b 1 ← b 0 − η ∂ L ∂ b ∣ w = w 0 , b = b 0 w^1 \leftarrow w^0- \eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}, b^1 \leftarrow b^0- \eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0} w1w0ηwLw=w0,b=b0,b1b0ηbLw=w0,b=b0
    把所有偏微分写成向量,就是gradient

  3. Training data: ( x 1 , y ^ 1 ) , . . . , ( x n , y ^ n ) (x^1,\hat{y}^1),...,(x^n,\hat{y}^n) (x1,y^1),...,(xn,y^n)

选择更高次的线性模型(低次的是高次的子集合),训练数据的average error减小,但是注意过拟合
Regularization:
λ ∑ ( w i ) 2 \lambda \sum(w_i)^2 λ(wi)2

Smoother function is more likely to be correct

bias and variance

简单的模型受到数据的影响较小,
复杂模型variance更高,bias更小
在这里插入图片描述
bias(欠拟合):增加features;more complex model
variance(过拟合):增加data;regularization

Cross Validation

在这里插入图片描述

梯度下降

在这里插入图片描述

  • 调Learning Rate,可以visualize No.参数updateloss
    • 自适应(Adagrad):
      在这里插入图片描述
      分子说梯度越大update越大,分母说梯度越大update越小。反差
      The best step is 一次微分除以二次微分
    • 随机梯度
      看一个example就update一次参数
    • Feature Scaling
      x i r ← x i r − m i σ i x^r_i \leftarrow \frac{x^r_i-m_i}{\sigma_i} xirσixirmi r r r个example的第 i i i个feature

理论基础

泰勒展开
h ( x ) = h ( x 0 ) + h ′ ( x 0 ) ( x − x 0 ) + h ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 + . . . h(x)=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+... h(x)=h(x0)+h(x0)(xx0)+2!h(x0)(xx0)2+...

x x x 很接近 x 0 x_0 x0 时, h ( x ) ≈ h ( x 0 ) + h ′ ( x 0 ) ( x − x 0 ) h(x)\approx h(x_0)+h'(x_0)(x-x_0) h(x)h(x0)+h(x0)(xx0)

多元泰勒展开:
h ( x , y ) ≈ h ( x 0 , y 0 ) + ∂ h ( x 0 , y 0 ) ∂ x ( x − x 0 ) + ∂ h ( x 0 , y 0 ) ∂ y ( y − y 0 ) h(x, y) \approx h\left(x_{0}, y_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial x}\left(x-x_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial y}\left(y-y_{0}\right) h(x,y)h(x0,y0)+xh(x0,y0)(xx0)+yh(x0,y0)(yy0)

所以可以对损失函数泰勒展开(两个参数)
在这里插入图片描述
圆的半径足够小才能满足泰勒近似,圆的半径和学习速率成正比

局限:局部最小

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值