机器学习之一（读书笔记）

最新推荐文章于 2024-08-19 23:29:38 发布

L_cherry_

最新推荐文章于 2024-08-19 23:29:38 发布

阅读量150

点赞数

分类专栏：人工智能读书笔记文章标签：机器学习 python 人工智能深度学习

本文链接：https://blog.csdn.net/L_cherry_/article/details/116937120

版权

人工智能读书笔记专栏收录该内容

24 篇文章 1 订阅

订阅专栏

这篇博客介绍了机器学习的基本概念，包括回归问题、梯度下降算法以及bias和variance的重要性。通过实例详细解释了线性回归的模型构建、损失函数与优化，并讨论了过拟合和正则化解决方法。

摘要由CSDN通过智能技术生成

Regression
Gradient Descent

一、绪论

机器学习就是找函式。
寻找函式的方法----Gradient Descent
在这里插入图片描述 15个知识点。

Regression：输出一个数值
Binary Classification：输出值只有Y或N

在这里插入图片描述
3. Multi-class Classification：输出值在很多个中选一个

4. Generation：生成

5.Supervised Learning：给机器有label的资料

5. Unsupervised Learning：给机器无label的资料
6. Reinforcement Learning：Reward

7. Transfer Learning：训练集和数据集不一样也能生成
在这里插入图片描述
8. 函式的Loss：评判一个函式的好坏

9.

二、Regression（回归）

task：预测PM2.5；预测股票系统；预测自动车；推荐系统；预测出的结果应该是一个数值。
以宝可梦为例（根据十只宝可梦预测CP值）：
在这里插入图片描述

Step1:Model
$\cdot x_{cp}$
=>Linear model:
$\sum{w_{i}x_{i}}$
其中， $x_{i}$ :input feature（各种不同的属性）；
$w_{i}$ :weight；b：bias

Step2:Goodness of Function
$\cdot x_{cp}$
用 $x^{n}$ 表示第n个object， $y\hat{}^{n}$ 表示第n个output。
在这里插入图片描述

输出是一个数值。
Loss function L：衡量函式多不好，它的input：function；
output：how bad it is.
$L (f) = L (w, b)$
$=\sum_{n = 1}^{10}(\hat{y}^{n} - (b + w \cdot x_{cp}^{n}))^{2}$
（以上选择estimation error定义L，也可选择其他的方式）
Step3：Best Function
穷举所有的w b使L最小
在这里插入图片描述

也可以用Gardient Descent（梯度下降）：

1.只有一个参数w时：

（随机）选一个初始点 $w^{0}$ ，计算在 $w =w^{0}$ 位置参数w对Loss的微分；假如微分（即切线斜率）为负，则w越大，L越小，则应该增加w的值（增加一个step size）；反之，减少w值。

step size取决于两件事：

现在的微分值 $\frac{dL}{dw}$ 多大，若越大，移动距离越大
learning rate $\eta$
假如微分值为负，则应增加w值，step size为 $\eta\frac{dL}{dw}$ 是负的，应该减去它，即

接下来，在 $w^{1}$ 位置继续计算微分，以此类推，直到 $w^{T}$ 的位置到达local minimum ，微分为0

2.有两个参数w和b时：
（随机）选一个初始点 $w^{0}$ 和 $b^{0}$ ，计算在 $w =w^{0}$ 和 $b =b^{0}$ 位置对Loss的偏微分；
在这里插入图片描述
不过，可能有好几个local optimal（局部最优）值，取决于初始值
但linear regression不用担心这个问题，因为它 No local optimal，是convex（凸形）
回到宝可梦：

最终得到一条结果如图：
在这里插入图片描述

若想知道做的多好或者多不好可以计算一下error：
即每个蓝点到红线的距离，相加再平均
在这里插入图片描述

training data到此结束，再抽新的10只宝可梦作为testingdata，再计算error。
可以看到这个model在x很小和很大时是不准确的，如何做得更好呢？
重新设计一个二次式的model：
$w_{1} \cdot x_{cp} + w_{2} \cdot (x_{cp})^{^{2}}$
然后根据training data再进行Gradient Descent得到新的best functon：
在这里插入图片描述

可以看到error变小了。
如何做得更好呢？
可以考虑设计一个更复杂的model：
$w_{1} \cdot x_{cp} + w_{2} \cdot (x_{cp})^{^{2}} + w_{3} \cdot (x_{cp})^{^{3}}$
再通过training data再进行Gradient Descent得到新的best functon：
在这里插入图片描述

model为加到四次式：
在这里插入图片描述

结果居然比上一个model更糟。
当model加到五次式，结果比四次式更糟糕。

统计五次model得到的training data–average data的图：
在这里插入图片描述
统计五次model得到的testing data–average data与training data–average data的对比图：

得到结论：复杂的model在training data在有好的结果，但是在testing data上不一定有好结果，这叫做Overfitting（过度拟合）。

但是宝可梦还会受到种类的影响，假如分为Pidgey、Eevee、Weedle、Caterpie四种，然后回到设计function model：
在这里插入图片描述

综合起来就是：
在这里插入图片描述得到的结果：

得到的结果比之前更好。
但是可能还有很多因素没有考虑进去，为了更好可以再考虑因素加入model中（比如使model变为二次式，再加上生命值和高度值）：
在这里插入图片描述

但是得到的结果过度拟合了。
可以通过Regularization（正则化）来解决这个问题（重新定义Loss function，w越小得到的function越平滑）：
重新定义loss function：在原有的lossfunction后面加上额外的term即 $\lambda \sum{(w_{i})^{2}}$ ，其中 $\lambda$ 为常数，后面的表示把所有的 $w_{i}$ 平方后相加，即：
在这里插入图片描述

三、bias和variance

要想得到平滑的function考虑的有两项error和smooth， $\lambda$ 越大代表考虑smooth的那个regularization那一项的影响力越大， $\lambda$ 越大得到的function越平滑（在做regularization时没有考虑bias：b，因为对平滑程度没有影响）
在这里插入图片描述

error的两个来源：bias和variance（方差）
$f^{\ast }$ is an estimator of $\hat{f}$ ，两者的距离来自于bias或variance。
一个estimator（估计值）的bias和variance：假如现在有一个变量x，要估计它的mean（平均值） $\mu$ ，假设它的variance是 $\sigma ^{2}$ ：

取样N个{ $x^{1},x^{2},...,x^{N}$ }
计算这N个点的平均值得到m： $\frac{1}{N}\sum_{n}x^{n}$
但是 $\neq \mu$ ，且多次计算的m都可能不等于 $\mu$ ，但是m的期望值一定是等于 $\mu$ 的(unbiased)
m的期望值：
$E[\frac{1}{N}\sum_{n}x^{n}] = \frac{1}{N}\sum_{n}^{}E[x^{n}] = \mu$
m在 $\mu$ 的周围散布情况取决于m的variance：
$\frac{\sigma ^{2} }{N}$
variance值取决于取了多少个sample，即N
估测variance的方法：1.先按照刚才的方法估测出m；2.再计算 $s^{2} = \frac{1}{N}\sum_{n}^{}(x^{n} - m)^{2}$ ,这个 $s^{2}$ 可用来估计 $\sigma ^{2}$ ，但是 $s^{2}$ 的期望值并不等于 $\sigma ^{2}$ ，是biased， $s^{2}$ 的期望值： $E[s^{2}] = \frac{N - 1}{N}\sigma ^{2} \neq \sigma ^{2}$

bias就是你射中的位置的期望值距离中心的偏移；variance就是你射中的位置距离瞄准的位置的偏移；如图
在这里插入图片描述

Bias： $E[f^{\ast }] = \bar{f}$ ，此与 $\hat{f}$ 的距离即为bias；
在这里插入图片描述

比较简单的model，它的bias比较大，但variance比较小；比较复杂的model，它的bias比较小但variance比较大；这张图，从左到右，bias逐渐下降，但variance越来越大；若error来源于variance很大，这种情况叫做Overfitting；若error来源于bias很大，这种情况叫做Underfitting。
如果你的model没办法fit你的training examples 说明bias大（Underfitting）；
在这里插入图片描述

如果在training data上得到小的error，但是在testing data 上得到一个大的error，意味着model的variance比较大（Overfitting）。

解决bias大和variance大的方法：
bias大说明model你们根本没有包含target，这个是时候redesign你的model，比如重新设计model式子，把更多feature加进去（这种情况collect更多data没用）；
variance大的话，第一种方法就是可以增加data，不会伤害bias（由于可能无法收集到更多data ，可generate fake training data，比如手写字的training data，可旋转角度，或颠倒图片，比如语音识别只有男声没有女声，可将之前的男声用变音器转换一下）；第二种方法就是regularization（正则化），让曲线变得平滑（可能会伤害bias）。

如何trade-off（平衡）bias和variance？
Cross Validation（交叉验证）：

把你的training set分为两组，一组是training set（train model），一组是validation set（选model）；将model1、2、3在training set上train好后，再放在validation set（如果担心分开后training data变少，可以在定好最好的performance的model之后拿这个model在原来的training data再train一次）上看每个的performance即error；将performance最好的model apply在public testing set上。
在这里插入图片描述

如果在testing set上得到的结果大于选择的model的error，不建议返回去再改变什么，因为这样就把testing data的bias考虑进去了。

如果担心分坏training data，可以做N-fold Cross Validation（N次交叉验证）：比如做3-fold把你的training set分为3份，拿其中一份做validation set，另外两份当training set；每次选择不同的一份做validation set，共三种情景，每个情境下算一次每个model的error，然后算一下它的average error；然后把performance最好的那和model放在完整的training set上再train一次，最后再去apply在testing set上。

本文是对blibli上李宏毅机器学习2020的总结，如有侵权会立马删除。

L_cherry_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习之一（读书笔记）

一、绪论机器学习就是找函式。寻找函式的方法----Gradient Descent15个知识点。Regression：输出一个数值Binary Classification：输出值只有Y或N3. Multi-class Classification：输出值在很多个中选一个4. Generation：生成5.Supervised Learning：给机器有label的资料5. Unsupervised Learning：给机器无label的资料6. Reinforcement
复制链接

扫一扫