第二周 2020李宏毅《机器学习》--梯度下降&分类学习笔记

最新推荐文章于 2024-07-22 09:16:52 发布

大齐不胖爱编程

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量213

点赞数

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_43836026/article/details/109755224

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

欢迎来到爱学习小可爱的机器学习入门小天地

文章目录

第一节课基本概念
- Error
第二节课梯度下降
第三节课分类
- 生成模型

第一节课基本概念

Error

来源：

variance(方差)
bias(偏差)

根据不同来源去对症提高模型的效果

估计方差是有差估计
估计均值是无差估计

如果我的模型不可以很好的适应训练样本，那就是有很大的偏差。–underfitting
如果可以很好的适应训练数据，但是在测试数据上有很大的无差，那就很有可能是大方差。–overfitting

第二节课梯度下降

步骤

随机选取一个初始点 $w^0,b^0$
计算 $\frac{dL}{dw}|_{w=w^0,b=b^0}\quad$
$\frac{dL}{db}|_{w=w^0,b=b^0}\quad$
如果导数为正，则需减小w,b;如果导数为负，则需增加w,b;使得Loss 变小
改变w,b的时候走的步长，首先由微分值定，微分值越大，说明越陡峭，则走的就越多；同时，又由 $\eta$ (学习率)决定，它是提前确定好的，它若大，则走一步，数值更新的幅度就越大，学习的速度就越大。
$w^1=w^0-\eta\frac{dL}{dw}|_{w=w^0,b=b^0}$
$b^1=w^0-\eta\frac{dL}{db}|_{w=w^0,b=b^0}$
更新w,b后，重新2、3、4直到微分=0，则找到loss最小的点

在这里插入图片描述

tips

1. Learning rate

$\theta^i=\theta^{i-1}-\eta*\nabla C(\theta^{i-1})$
$\eta$ 是学习率
越大，步伐大，可能就走过了
越小，步伐小，速度慢
在这里插入图片描述
不同的学习率导致的loss function的趋势不一样

所以合适的学习率很重要，那能不能找到一个调学习率的方法呢？

adaptive learning Rates
常识：一开始函数值距离目标值比较远，Learning Rates可以大一些，快一些的变化，后来越接近目标值，为了不错过，Learning rates就需要小一点。

方法1-- Adagrad
思想–每个参数的学习率都不一样
$w^{t+1}\leftarrow w^t- \frac {\eta^t}{\sigma^t}g^t$
$\sigma^t$ 是之前所有的w的微分的均方根值
$\eta^t=\frac {\eta}{\sqrt{t+1}}$
$g^t=\frac {\alpha L(\theta^t)}{\alpha w}$
在这里插入图片描述

2. Stochastic Gradient Descent(随机梯度下降)

每看到一个example,就update一次参数

3. Feature Scaling(特征缩放)

多个特征的范围不一样，可以将其中的特征缩小是他们范围差不多。
在这里插入图片描述
由图可以知，特征们范围不一样时，对损失函数的影响不一样，范围小的可能变化很大，对loss的影响很小。这两个特征共用一个学习率，就会有不好的影响（不容易找到最值），就需要用adgrad。
如果范围一致，就可以共用一个学习率，指向圆心运动。

做Feature Scaling的方法
在这里插入图片描述
1.求每个特征上第i个元素组合起来的平均值
2.求每个特征上第i个元素组合起来的标准差
3.代入公式 $x_i^r \leftarrow \frac {x^r_i -m_i}{\sigma_i}$

梯度下降的限制

1.可能找到的是局部最小值
2.可能找到的是鞍点
3.有可能在一个高原地方，不一定在局部最小附近

第三节课分类

输入：一个样本
中间：一个function
输出：该样本的类别

例子：Pokemon
用一个装了不同特征对应的值的vector表示一种pokemon
需要根据这个vector去预测这个pokemon的种类
在这里插入图片描述
当f( $x^n)\not=\hat{y}^n,\delta=1$ ,否则 $\delta=0$ .

生成模型

在这里插入图片描述
prior概率（prior）： $P(C_1)、P(C_2)$
概率密度： $P(x|C_1),P(x|C_2)$
假设密度服从高斯分布，我们就需要估测出这堆数据的平均值和方差，去得到密度。
我们用最大似然估计（Maximum Likelihood去估计均值和方差

在这里插入图片描述
方差和均值可用来算概率密度，这样P(C|x)就很容易算出来了。然后可以与0.5比较，得到该样品所属类别。

大齐不胖爱编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二周 2020李宏毅《机器学习》--梯度下降&分类学习笔记

欢迎来到爱学习小可爱的机器学习入门小天地第一节课基本概念Error来源：variance(方差)bias(偏差)根据不同来源去对症提高模型的效果bias and variance of Estimator估计方差是有差估计估计均值是...
复制链接

扫一扫