线性回归&梯度下降&神经网络理解

最新推荐文章于 2022-07-25 12:53:58 发布

数学小牛马

最新推荐文章于 2022-07-25 12:53:58 发布

阅读量503

点赞数

分类专栏： NLP python 日常问题文章标签：人工智能

本文链接：https://blog.csdn.net/qq_43409560/article/details/112031240

版权

日常问题同时被 3 个专栏收录

21 篇文章 0 订阅

订阅专栏

python

11 篇文章 0 订阅

订阅专栏

NLP

3 篇文章 0 订阅

订阅专栏

本文介绍了线性回归模型的构建，通过最小二乘法确定参数，并探讨了误差平方和作为损失函数的意义。接着引入高维空间中的最优化思想，解释了梯度下降法在寻找最优解中的作用，同时讨论了学习率和批量大小在深度学习中的重要性。最后，阐述了这些概念在神经网络优化中的应用。

摘要由CSDN通过智能技术生成

文章目录

- - - 序幕：线性回归

序幕：线性回归

引入方程

从最简单的二元一次方程开始 $y=w_1x_1+w_2x_2+b$ ，假设 $y$ 是奶茶价格， $x_1$ 为人流量参数、 $x_2$ 为原材料价格，这样一来就能根据不同地方的信息确认奶茶价格，但是要构建这个模型需要在此定义：

添加数据

需要的数据不止一项，所以 $x 1 、 x 2$ 相对应的是一系列n项数据，可以描述为：
$\hat{y}^{(i)}=w_1x_1^{(i)}+w_2x_2^{(i)}+b\quad(i\in[1,n])$
$y$ 处所标记符号为== $\hat{y}$ ==的意义为期望值而并非实际值，可以将任务简要理解为我们现在知道了 $n$ 个地方的奶茶价格、人流量、原材料价格数据，需要将三个未知参数 $w_1,w_2,b)$ 做估计。

借鉴:🐶最小二乘法

如何定义使得建立一个标准评估估计参数的好坏嘞，最小二乘法中有最常见的一个说法叫最小化误差平方和，用公式可书写为：
$S^2=\sum^{n}_{i=1}{(y_i-\hat{y}_i)^2}$
在这里插入图片描述

假设红点为待拟合点，曲线为参数估计好的目标曲线，可以看出评价指标的意义就是曲线与各个待拟合点之间的相对距离，值越小证明拟合程度越好。

生成图像代码：

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-10, 10, 0.05)
y = x ** 2
plt.plot(x, y)
x_sc = np.random.uniform(-10, 10, (1, 20))
e = np.random.normal(0, 1, (1, 20)) * 10
y_sc = x_sc ** 2 + e
plt.scatter(x_sc, y_sc, alpha=0.5, c="r")
plt.savefig("./最小二乘法.png")

引入限制

我们也将其指标类似定义为：
$e^{(i)} =\frac{1}{2}{(\hat{y}^{(i)}-y^{(i)})^2}$
又因为 $y^{(i)}$ 为可知的数据，其他数据展开可得：
$e^{(i)} =\frac{1}{2}{(w_1x_1^{(i)}+w_2x_2^{(i)}+b-y^{(i)})^2}$
很大的疑惑：为什么要加个 $\frac{1}{2}$ 呢，这里埋下伏笔不做解释（我也是后面才知道的）

函数的概念

当我将上述公式理解为一个指标函数又或者说是一种损失函数的时候，它已经被我们定义为是一种函数，那么书写为函数的样子呢：

损失函数：损失函数用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。

$e^{(i)}(w_1,w_2,b)=e^{(i)}$

为什么现在的未知数不是 $x$ 呢？因为 $x$ 是我们的数据（这个问题原来居然困惑了我很久）

矩阵の精简

利用矩阵知识我可以做如下定义：
$\theta=[w_1,w_2,b]^T$
之后的代换就很好理解了：
$e^{(i)}(w_1,w_2,b)=e^{(i)}(\theta)$

麻烦的现状

当建立了漂亮的数学公式 $y=w_1x_1+w_2x_2+b$ 后，很激动的想到既然有个 $n$ 组数据要不要带入直接求出未知参数 $w_1,w_2,b$ 呢？

事实很残酷，不是每一个数学问题都有一个明确的解析解。

在这里插入图片描述

参照上面的散点图，我们不可能找到一个完美的曲线去拟合，或许是有的，不过找到它的代价比开一家奶茶店更大一些；所以，这个问题让我们寻找到的就是一种数值解，就像数值计算方法所用到的牛顿法一样，精确到一定程度就放弃得到了。

最优化の想法：

一维函数的做法：
x = np.arange(-10, 10, 0.05)
y = x ** 2
plt.plot(x, y)
plt.scatter(6, 36, c="r")
plt.quiver(6, 36, -2.5, -30, angles='xy', scale_units='xy', scale=1)
plt.savefig("./一维下降.png")
由简单的二维图像看出，(6,36)点处于函数 $y=x^2$ 之上，并且 $y^{'} = 2 x$ ，黑色矢量箭头表示为当前点的下降方向，如果说无法简单的由该点去往最低点(0,0)，只能通过最优化的知识去求解，于是引入迭代算法：

迭代格式为： $x_{k+1}=x_k+\lambda_kd_k$

$x_{k+1}$ 被修正方向 $d_k$ 和步长 $\lambda_k$ 决定，给定上述参数我们需要发现的是：

要确定步长使得： $f(x_{k+1})=f(x_k+\lambda_kd_k)<f(x_k)$

记 $\phi(\lambda)=f(x_k+\lambda d_k)$ ，有 $\phi(\lambda_k)<\phi(0)$

这个问题相当于可以被优化：使 $d_k=-f'(x_k)$ ，确定一个合适的 $\lambda_k$ 使得 $x_k$ 在函数中做出的范围相对可接受。而 $\lambda$ 的取值为 $min_{\lambda\geq0}(f(x_k+\lambda d_k))$ 。更详细内容可参考最优化课程：最有一维搜索。

高维空间

类似的将方法扩展到高维空间，有一个神奇的概念叫梯度：
$\nabla f(\theta)=\nabla f(w_1,w_2,b)=(\frac{\partial f}{\partial w_1},\frac{\partial f}{\partial w_2},\frac{\partial f}{\partial b})^T$
梯度理解为高维空间的导数向量，之后使得： $d_k=-\nabla f(x_k)$ ，继续运算可得到一个最有利的方向。

回到当初重新看待数据：

自我感觉：矩阵的引入是现代社会最大的进步之一，将所有信息带入矩阵计算：

数据可以描述为：
$奶茶价格：Y_{(n\times 1)}\\ 预测奶茶价格：\hat{Y}_{(n\times 1)}\\ 两个参数：X_{(n\times 2)}\\ 未知参数1：\omega_{(2\times 1)}\\ 未知参数2：b_{(1\times 1)}$
预测公式可简化书写为无上标的形式：
$\hat{Y}=\omega X+b$
损失函数表示为：
$E(\theta)=\frac{1}{2n}(\hat{Y}-Y)^T(\hat{Y}-Y)$
一直损失函数后如何优化呢？运用上述的最有一维搜索的扩展方法：
$\nabla E = \frac{1}{n}(\frac{\partial E}{\partial w_1},\frac{\partial E}{\partial w_2},\frac{\partial E}{\partial b})^T$