线性神经网络学习笔记
线性回归
线性回归基于几个简单的假设:
1、假设自变量x和因变量y之间的关系是线性的,即y可以表示x中元素的加权和,这里通常允许包含观测值的一些噪声。
2、假设任何噪音都比较正常,如噪音遵循正太分布。
参数
w:权重
b:偏置
c:噪音
x:样本
y:预测结果
y
^
=
w
1
x
1
+
.
.
.
+
w
d
x
d
+
b
.
\hat{y} = w_1 x_1 + ... + w_d x_d + b.
y^=w1x1+...+wdxd+b.
模型关键点
解决的问题:以将自变量与应变量以线性关系的假设来进行预测或推断
功能:找到尽可能精确的值
超参:学习率、批量大小
输入(类型):x样本、y样本
输出(类型):w权重、b偏置、c噪音
损失函数
是使用模型拟合数据的度量。
量化目标和实际值与预测值之间的差距。
回归问题中最常用的损失函数是平常误差函数。
l
(
i
)
(
w
,
b
)
=
1
2
(
y
^
(
i
)
−
y
(
i
)
)
2
.
l^{(i)}(\mathbf{w}, b) = \frac{1}{2} \left(\hat{y}^{(i)} - y^{(i)}\right)^2.
l(i)(w,b)=21(y^(i)−y(i))2.
为了度量模型在整个数据集上的质量,我们需计算在训练集n个样本上的平均损失:
L
(
w
,
b
)
=
1
n
∑
i
=
1
n
l
(
i
)
(
w
,
b
)
=
1
n
∑
i
=
1
n
1
2
(
w
⊤
x
(
i
)
+
b
−
y
(
i
)
)
2
.
L(\mathbf{w}, b) =\frac{1}{n}\sum_{i=1}^n l^{(i)}(\mathbf{w}, b) =\frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.
L(w,b)=n1i=1∑nl(i)(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2.
目的
寻找到一组参数(
w
∗
,
b
∗
\mathbf{w}^*, b^*
w∗,b∗)使得在所有训练样本上的总损失最小:
w
∗
,
b
∗
=
argmin
w
,
b
L
(
w
,
b
)
.
\mathbf{w}^*, b^* = \operatorname*{argmin}_{\mathbf{w}, b}\ L(\mathbf{w}, b).
w∗,b∗=w,bargmin L(w,b).
随机梯度下降
梯度下降——几乎可以优化所有深度学习模型,它通不断在损失函数递减的方向上更新参数来降低误差。
梯度下降最简单的用法是计算损失函数(数据集中所有样本的损失均值)关于模型的导数(也叫梯度)。
小批量随机梯度下降
因为在每一次更新参数前,我们必须遍历整个数据集。因此我们通常会在每次需要计算更新的时候随机抽取一小批样本,这叫做小批量随机梯度下降。
参数
B
\mathcal{B}
B:批量大小
η
\eta
η:学习率
算法步骤:
1、初始化模型参数的值,如随机初始化
2、从数据集中随机抽取小批量样本且在负梯度的方向上更新参数,并不断迭代这一步骤
w
←
w
−
η
∣
B
∣
∑
i
∈
B
∂
w
l
(
i
)
(
w
,
b
)
=
w
−
η
∣
B
∣
∑
i
∈
B
x
(
i
)
(
w
⊤
x
(
i
)
+
b
−
y
(
i
)
)
,
b
←
b
−
η
∣
B
∣
∑
i
∈
B
∂
b
l
(
i
)
(
w
,
b
)
=
b
−
η
∣
B
∣
∑
i
∈
B
(
w
⊤
x
(
i
)
+
b
−
y
(
i
)
)
.
\begin{split}\begin{aligned} \mathbf{w} &\leftarrow \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b) = \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right),\\ b &\leftarrow b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_b l^{(i)}(\mathbf{w}, b) = b - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right). \end{aligned}\end{split}
wb←w−∣B∣ηi∈B∑∂wl(i)(w,b)=w−∣B∣ηi∈B∑x(i)(w⊤x(i)+b−y(i)),←b−∣B∣ηi∈B∑∂bl(i)(w,b)=b−∣B∣ηi∈B∑(w⊤x(i)+b−y(i)).