【李宏毅机器学习】02：回归Regression

BkbK-

已于 2022-11-07 15:40:22 修改

阅读量529

点赞数 11

分类专栏：学习笔记文章标签：人工智能深度学习回归李宏毅

于 2021-01-28 11:49:06 首次发布

本文链接：https://blog.csdn.net/BlacKingZ/article/details/113266729

版权

学习笔记同时被 2 个专栏收录

89 篇文章 23 订阅

订阅专栏

李宏毅机器学习

6 篇文章 1 订阅

订阅专栏

李宏毅机器学习02：回归Regression

在这里插入图片描述

文章目录

李宏毅机器学习02：回归Regression

ML Lecture 1 Regression - Case Study

一、回归(Regression)的定义

1.Regression: Output a scalar

回归的输出是数值
Regression 就是找到一个函数 (Model)，通过输入特征 $\hat{x}^{1},\hat{x}^{2},...,\hat{x}^{n}$ ，输出一个Scalar(数值) 。

2.Example of Regression

1.股市预测（Stock market forecast）
- 输入：过去10年股票的变动、新闻咨询、公司并购咨询等
- 输出：预测股市明天的平均值
2.自动驾驶（Self-driving Car）
- 输入：无人车上的各个sensor的数据，例如路况、测出的车距等
- 输出：方向盘的角度
3.商品推荐（Recommendation）
- 输入：商品A的特性，商品B的特性
- 输出：购买商品B的可能性

二、回归的实现(机器学习的步骤)

以预测宝可梦的cp值为例：

输入：目前宝可梦的数据
输出：宝可梦进化后的cp值

Step 1: define a set of function - Linear Model

确定一个模型，首先采用线性模型，考虑宝可梦的cp值
Model：

$y=b+w\cdot x_{cp}$

Linear Model 线性模型：
$y=b+\sum{w_ix_i}$
$w_i$ : weight(权重)
$b$ :bias(偏移)

Step 2: goodness of function - Loss Function

确定评价函数，我们使用实际进化后的CP值与模型预测的CP值差值，来判定模型的好坏

$L(f)=\displaystyle\sum_{i=1}^n\big(\hat{y^i}-f(x_{cp}^i)\big)^2$
- $f(x_{cp}^i)$ : Estimated y based on input function 基于输入量y的估计值
- $\hat{y^i}-f(x_{cp}^i)$ : Estimation error 估测误差
- $\displaystyle\sum_{i=1}^n$ : Sum over examples 所有样例误差之和

将参数 $w, b$ 代入评价函数：

$L(w,b)=\displaystyle\sum_{i=1}^n\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)^2$

Loss Function 损失函数：
是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数

Step 3: pick the best function - Gradient Descent

求解最优模型，即寻找参数值使得Loss函数最小。

1.Consider loss function 𝐿(𝑤) with one parameter $w$ :

考虑损失函数只有一个参数 $w$ 的情况：
(方法：Gradient Descent 梯度下降)

梯度：
在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率
- (Randomly) Pick an initial value $w_0$
  (随机)选取初始值 $w_0$
- Compute ${\frac{dL}{dw}|}_{w=w_0}$
  计算损失函数在 $w_0$ 处的微分
- Negative ->Increase $w$ ；Positive -> Decrease $w$
  当微分值为负值，增加 $w$ ;当微分值为正值，减少 $w$
  - $\begin{cases} Decrease &\text{if } ({\frac{dL}{dw}|}_{w=w_0})>0\\ Increase &\text{if } ({\frac{dL}{dw}|}_{w=w_0})<0 \end{cases}$
  - $w^1\gets w^0-\eta \cdot({\frac{dL}{dw}|}_{w=w_0})$
Learning Rate 学习率/步长：
$-\eta \cdot({\frac{dL}{dw}|}_{w=w_0})$ : $\eta$ is called “Learning Rate”
$-\eta \cdot({\frac{dL}{dw}|}_{w=w_0})$ 中 $\eta$ 是学习率/步长
- Many iteration 多次迭代
  - Compute ${\frac{dL}{dw}|}_{w=w_1}$
  - $w^2\gets w^1-\eta \cdot({\frac{dL}{dw}|}_{w=w_1})$
  - Compute ${\frac{dL}{dw}|}_{w=w_2}$
  - $w^3\gets w^2-\eta \cdot({\frac{dL}{dw}|}_{w=w_2})$
  - … …
- $w^n=\argmin_wL(w)$
Local minima 局部最小值
global minima 全局最小值
注：在linear regression 上没有 local minima

2.Consider loss function 𝐿(𝑤) with two parameter $(w, b)$ ：

考虑损失函数有两个参数 $(w, b)$ 的情况：
方法：Gradient Descent 梯度下降

梯度：
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向
$\Large\begin{bmatrix} \frac {\partial L} {\partial w} \\ \frac {\partial L} {\partial b} \end{bmatrix}_{gradient}$
- (Randomly) Pick an initial value $w_0,b_0$
  (随机)选取初始值 $w_0,b_0$
- Compute ${\frac{\partial L}{\partial w}|}_{w=w_0,b=n_0}$ , ${\frac{\partial L}{\partial b}|}_{w=w_0,b=n_0}$
  计算损失函数在 $w_0$ 和 $b_0$ 处的偏导
  $w^1\gets w^0-\eta \cdot({\frac{\partial L}{\partial w}|}_{w=w_0,b=n_0})$
  $b^1\gets b^0-\eta \cdot({\frac{\partial L}{\partial b}|}_{w=w_0,b=n_0})$
- Many iteration 多次迭代
  - Compute ${\frac{\partial L}{\partial w}|}_{w=w_1,b=n_1}$ , ${\frac{\partial L}{\partial b}|}_{w=w_1,b=n_1}$
    $w^2\gets w^1-\eta \cdot({\frac{\partial L}{\partial w}|}_{w=w_1,b=n_1})$
    $b^2\gets b^1-\eta \cdot({\frac{\partial L}{\partial b}|}_{w=w_1,b=n_1})$
  - Compute ${\frac{\partial L}{\partial w}|}_{w=w_2,b=n_2}$ , ${\frac{\partial L}{\partial b}|}_{w=w_2,b=n_2}$
    $w^3\gets w^2-\eta \cdot({\frac{\partial L}{\partial w}|}_{w=w_2,b=n_2})$
    $b^3\gets b^2-\eta \cdot({\frac{\partial L}{\partial b}|}_{w=w_2,b=n_2})$
  - … …
- $w^n,b^n=\argmin_{w,b}L(w,b)$

3.Formulation of ${\frac{\partial L}{\partial w}}$ and ${\frac{\partial L}{\partial b}}$

宝可梦cp值偏微分的公式：

Model : $y=b+w\cdot x_{cp}$
Loss function : $L(w,b)=\displaystyle\sum_{i=1}^n\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)^2$

${\frac{\partial L}{\partial w}}=\displaystyle\sum_{i=1}^n2\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)\cdot( x_{cp}^i)$
${\frac{\partial L}{\partial b}}=\displaystyle\sum_{i=1}^n2\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)$

三、回归的优化

1.Select another model 选择另一个模型

(1)linear model 线性模型：

$y=b+w\cdot x_{cp}$
在这里插入图片描述

(2)non-linear model 非线性模型：

$y=b+w_1\cdot x_{cp}+w_2\cdot x_{cp}^2$
$y=b+w_1\cdot x_{cp}+w_2\cdot x_{cp}^2+w_3\cdot x_{cp}^3$
$y=b+w_1\cdot x_{cp}+w_2\cdot x_{cp}^2+w_3\cdot x_{cp}^3+w_4\cdot x_{cp}^4$
$y=b+w_1\cdot x_{cp}+w_2\cdot x_{cp}^2+w_3\cdot x_{cp}^3+w_4\cdot x_{cp}^4+w_5\cdot x_{cp}^5$

(3)Overfitting 过拟合

越复杂的Model包含的Function越多，那么其包含理想Model的可能性就越大，如果过分的拟合理想的模型，就会出现过拟合问题。

过拟合指的是模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（generalization）能力较差。

在这里插入图片描述

2. Consider the hidden factors 考虑其他隐藏因素

宝可梦进化后的cp值和宝可梦的种类有关，即不同种类的宝可梦对应不同模型
在这里插入图片描述
可以使用函数将不同种类的模型整合：
$\delta(x_s={model}_i) = \begin{cases} 1 &\text{if } (x_s={model}_i) \\ 0 &\text{if } (x_s {=}\mathllap{/\,}{model}_i) \end{cases}$

如模型线性整合：
$y=\displaystyle\sum_{i=1}^n\big((b_i+w_i\cdot x_i)\cdot\delta(x_s={model}_i)\big)$

3.Regularization 正则化

正则化就是在损失函数上加上一个与w（权值）相关的值，那么要是loss function越小的话，w也会越小，w越小就使function更加平滑

$L(w,b)=\displaystyle\sum_{i=1}^n\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)^2$

$y=L(w,b)+\color{blue}\lambda\sum(w_i)^2$

The functions with smaller 𝑤𝑖 are better

$y=\displaystyle\sum_{i=1}^n\big(\hat{y^i}-(b+w\cdot x_{cp}^i)\big)^2+\color{blue}\lambda\sum(w_i)^2$

注意 $\lambda$ 值的选择：
在这里插入图片描述

ML Lecture 1 Regression - Demo

【知识索引】【李宏毅机器学习】

BkbK-

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
【李宏毅机器学习】02：回归Regression

回归Regression主要内容：一、回归(Regression)的定义；二、回归的实现(机器学习的步骤)；三、回归的优化。以宝可梦的cp值预测为例，讲述了回归模型建立、优化的过程。
复制链接

扫一扫