李宏毅2020机器学习课程笔记（一）- 分类与回归

iteapoy

已于 2023-11-30 11:38:34 修改

阅读量1.5w

点赞数 67

分类专栏：机器学习（付费）文章标签：机器学习 python 人工智能

于 2020-04-25 16:59:10 首次发布

本文链接：https://blog.csdn.net/iteapoy/article/details/105752567

版权

机器学习（付费）专栏收录该内容

10 篇文章 195 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本笔记概述了李宏毅2020年机器学习课程，重点讲解了回归和分类问题。从案例研究开始，介绍了机器学习三步骤：定义模型集合、损失函数和选择最佳模型。讨论了梯度下降法，包括过拟合和欠拟合的概念及解决方案。此外，还探讨了分类问题，尤其是为什么不能直接将分类问题视为回归问题，以及Logistic Regression的模型构建和损失函数。

摘要由CSDN通过智能技术生成

相关专题：李宏毅2020机器学习资料汇总
本系列笔记：

李宏毅2020机器学习课程笔记（一）- 分类与回归
李宏毅2020机器学习课程笔记（二）- 深度学习
李宏毅2020机器学习课程笔记（三）- CNN、半监督、RNN

文章目录

1. 课程简介
- Course Introduction（P1）
- Rule of ML 2020（P2）
2. Regression

1. 课程简介

Course Introduction（P1）

2020版课程介绍，李宏毅老师详细解释本课程的学习路线

2020版少了一个机器学习的整体介绍，建议点击2019年视频补充，关于监督学习、半监督学习、无监督学习、迁移学习、强化学习的简介。

在这里插入图片描述
机器学习中所谓的模型其实是指一个函数。

Rule of ML 2020（P2）

助教介绍pyenv的安装和使用、kaggle，学生如何利用github完成作业，评分以及助教的联系方式。

2. Regression

Case Study （P3）

机器学习入门——回归，预测准确的数值。

非常有趣的一课，以“预测宝可梦的CP值”作引，李宏毅老师介绍了回归（同时，也是机器学习）的整体过程。

整体过程（后面会反复用到，博主称它叫机器学习三步骤吧）：

定义模型集合/函数集合。
定义损失函数（LOSS）来评价模型/函数好坏。
选择最好的模型/函数。

这里的模型实际上就是函数 $y = f (x)$ ，后面可能会直接简称模型。

简述梯度下降（Gradient Descent ）：

单个参数的梯度下降。
两个参数的梯度下降。

回归问题的损失函数是凸函数（convex），意味着一定会找到全局最优解。但是，其它的机器学习问题中，多个参数的梯度下降可能会陷入局部最优解。

过拟合、欠拟合的问题及解决方法。

过拟合时，一个方法是使用正则化。
正则化的作用是降低模型的泛化误差。

选择模型时，更倾向于选择“平滑”的模型。因为当数据有噪声干扰时，越平滑的函数受到噪声的干扰越小。

回归问题的机器学习三步骤：

定义模型集合：
$f=\boldsymbol w \cdot \boldsymbol x+\boldsymbol b=\sum_{i} w_{i} x_{i}+\boldsymbol b$
定义损失函数（LOSS）来评价模型好坏：
$\begin{aligned} L(f)&=L(w,b)\\ &=\frac{1}{2} \sum_{n}\left(f\left(x^{n}\right)-\hat{y}^{n}\right)^{2}\\ &=\frac{1}{2} \sum_{n}\left( w \cdot x^n+b-\hat{y}^{n}\right)^{2} \end{aligned}$
选择最好的模型：
梯度下降法
$w^{*}, b^{*}=\arg \min\limits_{w, b} L(w, b)$
梯度
$\nabla L=\left[\begin{array}{l}\frac{\partial L}{\partial w} \\ \frac{\partial L}{\partial b}\end{array}\right]_{g r a d i e n t} =\left[\begin{array}{l} -2\sum\limits_{i=1}^n{\left(\hat{y}^{n}-\left(b+w \cdot x_{}^{n}\right)\right)}x_i^n\\ -2\sum\limits_{i=1}^n{\left(\hat{y}^{n}-\left(b+w \cdot x_{}^{n}\right)\right)} \end{array}\right]$
其中， $x_i^n$ 表示向量 $x^n=[x^n_1,x^n_2,...,x^n_i,...]$ 中第i维的值。

Basic concept（P4）

理论解释“误差来自哪里？”——偏差（bias）和方差（variance）

回归中，复杂的模型包含简单的模型（令高次项系数为0）。

模型在拟合数据时，越简单的模型，受到特殊的取样数据点的影响越小，所以方差越小。

一般来说，

简单的模型（左侧）有大的bias和小的variance
复杂的模型（右侧）有小的bias和大的variance【瞄得越来越准，但误差越来越大】

欠拟合（underfitting）：误差来源于bias——模型不能很好地拟合训练数据。

解决方法：重新设计模型（欠拟合时，采集更多数据是没用的）

增加更多的特征作为输入
选择更复杂的模型

过拟合（overfitting）：误差来源于variance——模型拟合了训练数据，但在测试数据上有很大误差。

解决方法：

更多数据——采集or生成
正则化

理想结果：平衡bias和variance，得到一个较好的模型。

训练集、验证集、测试集的划分，交叉验证（cross validation）和k折（k-fold）交叉验证。

注1：将训练数据分为测试集和验证集。

做实验、发表论文时所谓的测试集，实际上是一个public testing set，而真正的测试集是一个private testing set，是一个谁也不知道的东西（我们不知道后人会输入什么数据到模型中），因此，我们不应该以public testing set作为选择模型的标准，而是应该以validation的结果来选择最好的模型。

注2：用validation选好模型后，可以把测试集和验证集一起作为训练数据，再对模型进行一次训练。但是！千万不要在看到public testing set的结果后，再想着去调整训练好的模型，这样的调整是无意义的。

以上红色标注的点，博主以前都搞错了，一直以为是直接把数据集分成training、testing、validation，而validation=testing，因此，博主以前都是直接在testing上做测试，根据测试结果调整超参数，不用validation。现在看来这一做法不妥。最近翻阅花书（《深度学习》），书上面也是李宏毅老师的这一说法。

Gradient Descent（P5、P6、P7）

这里有三个视频，不过实际上P6和P7都只有几分钟，是李宏毅老师用游戏来解释梯度下降法。

P5讲了梯度下降法的三个tips：

Tips1：自动调整学习率η

Adagrad这一自动梯度下降法的具体实现过程，并且，李宏毅老师给了示例，解答了Adagrad中“梯度越大，step不一定越大”这一问题，最好的步伐是 $\frac{|一次微分|}{二次微分}$

图中可视化了学习率对训练时Loss的影响。不同颜色的线代表不同的学习率，随着训练次数增加，Loss的变化趋势不同。

当你在训练模型的时候，建议把这张图画出来，这样才可以判断你的学习率是否合适。

Tips2：Stochastic Gradient Descent（SGD）使训练更快

Tips3：特征放缩（Feature Scaling）归一化参数

李宏毅老师用数学公式（泰勒展开）说明了梯度下降法的工作原理，并解释了梯度下降法的局限。

我们一般认为：梯度下降法的局限是训练可能会陷入局部最优解（局部最小值，local minima），无法到达全局最小值。但是，实际情况可能更糟糕。当我们真正训练模型的时候，我们会定义一个终止值 $\delta$ 表示无穷小，在梯度接近于0（ $<\delta$ ）的地方就会停下来，而这个地方不一定是全局最小值，它可能是局部最小值，也可能是鞍点（saddle point），甚至可能是一个损失函数很大的平缓高原（plateau）。

P6用世纪帝国这个游戏说明为何用梯度下降法会陷入局部最优解。

P7用Minecraft这个游戏说明为何在梯度下降法中，梯度可能会先升后降。

Optimization for Deep Learning（P8、P9）

* 2020新增内容，由助教讲授

不过……讲得不太清楚，就随缘听听吧。

Classification（P10）

机器学习的另一经典问题——分类，与回归的“预测数值”不同，分类需要“预测标签”。

首先，李宏毅老师详细解释了为何不能将分类问题直接当作回归问题（即，分类问题直接用回归的损失函数）来解。

Q：多分类问题为什么不可以直接当作回归问题？

A：类别1变成数值1，类别2变成数值2，类别3变成数值3……暗示类别1与类别2比较接近，与类别3比较远，实际上并无此关系。

当然，确实有将多分类当做回归来解的模型（感知机，SVM等），但是需要修改损失函数。

李宏毅老师用“给宝可梦分类”的例子详细推导了如何正确求解一个分类问题（涉及贝叶斯公式、高斯分布、极大似然估计等），该模型为生成模型。

Q：为什么是生成模型？
A：假设数据遵循一个均值为 $\mu$ 、协方差矩阵为 $\Sigma$ 的高斯分布。利用从高斯分布中生成数据的概率，即似然（likelihood），来估计 $P(x|C_1)$ （从类别 $C_1$ 中任取一个样本，它是x的概率）

Q：为什么要假设数据的分布是高斯分布？
A：（李宏毅：我知道，就算假设是别的分布，你也一定会问这个问题！）你可以假设任意你喜欢的分布，比如二元分类，可以假设伯努利分布。高斯分布比较简单，参数也比较少（每个类别的高斯分布都共享协方差矩阵 $\Sigma$ ）。

Q：为什么不同类别要共享协方差矩阵 $\Sigma$ ？
A：如果每个类别 $i$ 都有一个协方差矩阵 $\Sigma_i$ ，那么一方面，variance过大，容易过拟合，另一方面，共享协方差矩阵可以减少参数个数。

总结——分类问题的三步骤：

定义模型集合
样本x属于类别1的概率（后验）：
$P\left(C_{1} | x\right)=\frac{P\left(C_{1}\right) P\left(x | C_{1}\right)}{P\left(C_{1}\right) P\left(x | C_{1}\right)+P\left(C_{2}\right) P\left(x | C_{2}\right)}$
如果 $P\left(C_{1}| x\right)>0.5$ ，则x属于类别1；否则，x属于类别2.
定义损失函数（LOSS）来评价模型好坏
假设高斯分布，利用已有的数据，求得 $\mu$ ， $\Sigma$ 。最大化评价参数好坏的指标，即极大似然估计 $L(\mu,\Sigma)$ 。
找到最好的模型
$\mu^*,\Sigma^*=\argmax\limits_{\mu,\Sigma}L(\mu,\Sigma)$
实际上，（背公式）最佳参数就是每个类别中，所有样本点的均值和协方差。比如，类别1的最佳均值与协方差：
$\mu^*_1=\frac{1}{n_1} \sum_{i=0}^{n_1} x^{i}$
$\Sigma^{*}_1=\frac{1}{n_1} \sum_{i=0}^{n_1}\left(x^{i}-\mu^{*}_1\right)\left(x^{i}-\mu^{*}_1\right)^{T}$
注1：均值是每个类别单独求出的。
注2：协方差先每个类别单独求出，然后共享的协方差为所有协方差的加权平均值 $\Sigma^*=\frac{n_1}{N}\Sigma^{*}_1+\frac{n_2}{N}\Sigma^{*}_2+...$

最后，李宏毅老师通过对后验概率的数学变形，推导出了sigmod函数 $\sigma(z)$ ，以及实际上， $z=\boldsymbol w \cdot \boldsymbol x+\boldsymbol b$ 。在计算时，可以跳过 $\mu$ 和 $\Sigma$ ，直接求出 $\boldsymbol w$ 和 $b$ ，见下一章（logistic regression）.

Logistic Regression（P11）

博主的一点题外话：Logistic Regression经常被翻译成逻辑回归。周志华的西瓜书《机器学习》上指出这是误译，这里的logistic和逻辑（logit）并无关系，实际上是与log相关，译成对数几率回归或者对数回归之类的会比较好一点……反正不知道怎么翻译，下文还是称呼为Logistic Regression吧。

Logistic Regression常用于解决二分类问题，由上一章，李宏毅老师引入了Logistic Regression的另一种模型表达方式，损失函数是交叉熵的形式。

总结：

定义模型集合
$f_{w,b}(x)=P_{w, b}\left(C_{1} | x\right)=\sigma(z)=\frac{1}{1+e^{-z}}$
$z=\boldsymbol w \cdot \boldsymbol x+\boldsymbol b=\sum_{i} w_{i} x_{i}+\boldsymbol b$
定义损失函数（LOSS）来评价模型好坏
$w^{*}, b^{*}=\arg \max \limits_{w, b} L(w, b)=\arg\min \limits_{w, b}(-\ln L(w, b))$
通过 $\ln$ 将连乘变成连加，简化了计算机的计算，而且在计算机中，连乘后的数值容易溢出，变成连加后，数值不容易溢出。
$-\ln L(w, b)=\sum_{n}-\left[\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)+\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)\right]$
$C(f(x^n),\hat{y}^{n})=-\hat{y}^{n} \ln f_{w, b}\left(x^{n}\right)-\left(1-\hat{y}^{n}\right) \ln \left(1-f_{w, b}\left(x^{n}\right)\right)$
是两个伯努利分布的交叉熵。
一个代表真值的分布，一个代表预测值的分布。
补充阅读：一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉
找到最佳模型
梯度下降法，参数更新为： $w_{i}=w_{i}-\eta \sum_{n}-\left(\hat{y}^{n}-f_{w, b}\left(x^{n}\right)\right) x_{i}^{n}$

公式记忆之sigmoid的微分值： $\frac{\partial \sigma(z)}{\partial z}=\sigma(z)(1-\sigma(z))$

然后，李宏毅老师用表格归纳了Logistic Regression和线性回归的异同。

Q：为什么logistic regression的损失函数不能和linear regression一样，是square error？
A：可以试一下 logistic regression + square error.

在第3步的梯度下降法中， $L(f)=\frac{1}{2} \sum_{n}\left(f\left(x^{n}\right)-\hat{y}^{n}\right)^{2}$ 对 $w$ 求导后的结果为 $\left(f_{w, b}(x)-\hat{y}\right) f_{w, b}(x)\left(1-f_{w, b}(x)\right) x_{i}$ （博主简化了常数项，只保留了函数的主体）
在下列四种情况下：

真值 $\hat{y}^n=1$ ，预测值 $f_{w,b}(x^n)=1$ ，离目标很近时，梯度为0；
真值 $\hat{y}^n=1$ ，预测值 $f_{w,b}(x^n)=0$ ，离目标很远时，梯度为0；
真值 $\hat{y}^n=0$ ，预测值 $f_{w,b}(x^n)=1$ ，离目标很远时，梯度为0；
真值 $\hat{y}^n=0$ ，预测值 $f_{w,b}(x^n)=0$ ，离目标很近时，梯度为0；
梯度更新的效果都不好。因为不论预测值离目标远还是近，更新速度都很慢。

生成模型（上一章中利用高斯分布求后验概率的模型）和判别模型（logistic regression）的差异。

生成模型作了假设，而判别模型没有作假设。

生成模型：
$\begin{aligned} P\left(C_{1} | x\right)&=\frac{P\left(C_{1}\right) P\left(x | C_{1}\right)}{P\left(C_{1}\right) P\left(x | C_{1}\right)+P\left(C_{2}\right) P\left(x | C_{2}\right)}=\sigma(z)\\ z&=\left(\mu^{1}-\mu^{2}\right)^{T} \Sigma^{-1}x-\frac{1}{2}\left(\mu^{1}\right)^{T} \Sigma^{-1} \mu^{1}+\frac{1}{2}\left(\mu^{2}\right)^{T} \Sigma^{-1} \mu^{2}+\ln \frac{N_{1}}{N_{2}} \end{aligned}$

判别模型：
$f_{w,b}(x)=P_{w, b}\left(C_{1} | x\right)=\sigma(z)=\sigma(\sum_{i} w_{i} x_{i}+\boldsymbol b)$

同样的数据，用生成模型和判别模型得到的 $w$ 和 $b$ 是不一样的。