李宏毅机器学习深度学习课程第三讲Regression

最新推荐文章于 2024-09-05 22:23:26 发布

Wanderers111

最新推荐文章于 2024-09-05 22:23:26 发布

阅读量162

点赞数

分类专栏：深度学习－化学信息学－智能算法

本文链接：https://blog.csdn.net/Wanderers111/article/details/113084939

版权

回归模型损失函数梯度下降正则化泛化能力

关键词由CSDN通过智能技术生成

深度学习－化学信息学－智能算法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

李宏毅机器学习深度学习课程第三讲Regression

简述

画外音，这一讲听完脑子里全是宝可梦哈哈哈哈哈哈哈。不过有一说一，李老师的课用来熟悉基本概念和符号语言（以及markdown和latex）真的太好了，对于我这种看电影似看完吴恩达老师课程的人来说。

这一章主要讲的就是Regression。

所谓Regression就是解决下面这个问题:

$对于一个确定的X\to Y,找到一个函数：\\ \hat{f}(x)= \hat{y}$

一般的过程：

1.选择模型；

2.损失函数评估

3,.最好的模型选择

选择模型

$\ set:\\F = \{{f}^{1}, {f}^{2},...,{f}^{d} \}中选择函数模型进行拟合。\\ 例如：对于每一个特征{x}_{i},赋予权重向量{w}^{i},以及最终的bias向量b, 得到线性模型：\\ \hat{y}=b + \sum_{i=1}^n w_ix$

损失函数评估

有Training Data：

$[{X}^{n},{Y}^{n}] = \left[ \begin{matrix} {x}^{0},{y}^{0} \\ {x}^{1},{y}^{1} \\ ... \\ {x}^{n},{y}^{n} \end{matrix} \right]$

对于损失函数
$L (f) = L (w, b)$
以线性模型的均方根误差为例为例：
$\sum_{i=1}^n {(\hat{y}^{i}-(b+w·x^{i}_{cp}))}^{2}$

模型选择+Gradient Descent

${f}^{*} = \underset{f}{\mathrm{argmin}} L(f)$

${w}^{*}, {b}^{*} = \underset{w,b}{\mathrm{argmin}}L(w, b)$

对于w的函数L(w)，在L(w)可微分时即可以使用Gradient Descent,

数学过程描述：
$w^{*} = \underset{w}{\mathrm{argmin}} L(f)$

$随机初始化一个{w}^{0}$

$计算\quad \frac{\mathrm{d}L}{\mathrm{d}w}{|}_{w={w}^{0}}\\ 定义学习率\eta更新:\quad {w}^{1}\larr{w}^{0}-\eta{\frac{\mathrm{d}L}{\mathrm{d}w}{|}_{w={w}^{0}}}\\ 重复以上过程。\\ 对于参数w、b,更新优化的方式会变成： \left[ \begin{matrix} {w}^{1} \\ {b}^{1} \end{matrix} \right] \larr \left[ \begin{matrix} {w}^{0}\\ {b}^{0} \end{matrix} \right]-\eta{\nabla{L}}\\ 其中：\nabla{L}=\left[ \begin{matrix} \frac{\partial{L}}{\partial{w}}{|}_{w={w}^{0}} \\ \frac{\partial{L}}{\partial{b}}{|}_{b={b}^{0}} \end{matrix} \right]$

正则化

随着模型的复杂程度上升时，模型在训练集上的表现一般会越好。但当我们要评价一个模型时，会使用一个测试集来进行检验，这时候就会出现error比较大的情况，这便是模型的泛化能力。

模型出现这种问题这是有很多原因的，例如：
$1.可能是因为未选择到合适的特征：{x}_{hidden}\\ 2.模型复杂度过高导致过拟合严重。$
这时候需要调整我们的模型，包括选择新的特征，以及使用正则化的方法，即在损失函数上增加一项，减小模型的复杂程度，使模型更加平滑，收到的影响更小，增加模型的鲁棒性：
$\sum_{i=1}^{n}(\hat{{y}^{i}}-(b+w·{x}^{i}))+\lambda{{w}^{2}}$
注：模型泛化能力的研究是研究泛化误差的概率上界来进行的，即泛化误差上界：

泛化误差上界具有以下特征：
$1.泛化误差上界与样本容量相关，样本量N\uarr,泛化误差上界\to0\\ 2.他是假设空间容量函数，假设空间容量\uarr,泛化误差上界\uarr$

Wanderers111

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习深度学习课程第三讲Regression

李宏毅机器学习深度学习课程第三讲Regression简述画外音，这一讲听完脑子里全是宝可梦哈哈哈哈哈哈哈。不过有一说一，李老师的课用来熟悉基本概念和符号语言（以及markdown和latex）真的太好了，对于我这种看电影似看完吴恩达老师课程的人来说。这一章主要讲的就是Regression。所谓Regression就是解决下面这个问题:对于一个确定的X→Y,找到一个函数：f^(x)=y^对于一个确定的X\to Y,找到一个函数：\\\hat{f}(x)= \hat{y}对于一个确定的X→
复制链接

扫一扫

专栏目录