李宏毅机器学习笔记——回归

最新推荐文章于 2022-10-18 19:06:35 发布

ML_CS

最新推荐文章于 2022-10-18 19:06:35 发布

阅读量216

点赞数

分类专栏：机器学习文章标签：回归

本文链接：https://blog.csdn.net/qq_27436347/article/details/88775236

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

回归

A set of function: $y=b+w\cdot x_{cp}$
Goodness of function: $L(f)=\sum(\hat{y}-f(x_{cp}^n))^2$ ,
Pick the “best” function $f^*=arg \min_{f} L(f)$

Gradient Descent: $w^1 \leftarrow w^0- \eta\frac{\partial L}{\partial w}|_{w=w^0,b=b^0}, b^1 \leftarrow b^0- \eta\frac{\partial L}{\partial b}|_{w=w^0,b=b^0}$
把所有偏微分写成向量，就是gradient
Training data: $(x^1,\hat{y}^1),...,(x^n,\hat{y}^n)$

选择更高次的线性模型（低次的是高次的子集合），训练数据的average error减小，但是注意过拟合
Regularization：
$\lambda \sum(w_i)^2$

Smoother function is more likely to be correct

bias and variance

简单的模型受到数据的影响较小，
复杂模型variance更高，bias更小
在这里插入图片描述
bias（欠拟合）：增加features；more complex model
variance（过拟合）：增加data；regularization

Cross Validation

在这里插入图片描述

梯度下降

在这里插入图片描述

调Learning Rate，可以visualize No.参数update 和 loss
- 自适应（Adagrad）：
  
  分子说梯度越大update越大，分母说梯度越大update越小。反差
  The best step is 一次微分除以二次微分
- 随机梯度
  看一个example就update一次参数
- Feature Scaling
  $x^r_i \leftarrow \frac{x^r_i-m_i}{\sigma_i}$ 第 $r$ 个example的第 $i$ 个feature

理论基础

泰勒展开
$h(x)=h(x_0)+h'(x_0)(x-x_0)+\frac{h''(x_0)}{2!}(x-x_0)^2+...$

当 $x$ 很接近 $x_0$ 时， $h(x)\approx h(x_0)+h'(x_0)(x-x_0)$

多元泰勒展开：
$\approx h\left(x_{0}, y_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial x}\left(x-x_{0}\right)+\frac{\partial h\left(x_{0}, y_{0}\right)}{\partial y}\left(y-y_{0}\right)$

所以可以对损失函数泰勒展开（两个参数）
在这里插入图片描述
圆的半径足够小才能满足泰勒近似，圆的半径和学习速率成正比

局限：局部最小

ML_CS

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习笔记——回归

回归A set of function: y=b+w⋅xcpy=b+w\cdot x_{cp}y=b+w⋅xcpGoodness of function: L(f)=∑(y^−f(xcpn))2L(f)=\sum(\hat{y}-f(x_{cp}^n))^2L(f)=∑(y^−f(xcpn))2,Pick the “best” function f∗=argmin⁡fL(f)f...
复制链接

扫一扫