前言
关于课程《神经网络与深度学习》所做笔记。
按照要求分4周提交。每次笔记不完全参照老师上课进度,还会对本周其他所学有关深度学习的知识进行总结。
本周课程内容
线性回归
定义: 利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。针对给定的样本数据,构造了损失函数,并通过训练集和输出数据来拟合模型,以使损失函数最小化。
多维线性函数线性回归过程:
1.
假设给定样本
(
x
(
i
)
,
y
(
i
)
)
(x^(i),y^(i))
(x(i),y(i)),
2.
构造损失函数
J
(
θ
)
=
1
2
∑
i
=
1
m
(
y
(
i
)
−
h
θ
(
x
(
i
)
)
2
)
J_(\theta)=\frac{1}{2}\sum_{i=1}^m(y^{(i)}-h_{\theta}(x^{(i)})^2)
J(θ)=21∑i=1m(y(i)−hθ(x(i))2)(损失函数为二次型形式)
3.
目标:找到超平面参数
θ
\theta
θ,使
J
(
θ
)
J_{(\theta)}
J(θ)最小,即求解
m
i
n
θ
J
(
θ
)
\underset{\theta}{min}J_{(\theta)}
θminJ(θ)
4.
求解:令
∂
J
(
θ
)
∂
θ
=
0
\frac{\partial{J_{(\theta)}}}{\partial{\theta}}=0
∂θ∂J(θ)=0,即可求得
θ
=
(
X
T
X
)
−
1
X
T
y
\theta=(X^TX)^{-1}X^Ty
θ=(XTX)−1XTy
对于其他函数,修改损失函数同理可解,但对于非线性函数
∂
J
(
θ
)
∂
θ
=
0
\frac{\partial{J_{(\theta)}}}{\partial{\theta}}=0
∂θ∂J(θ)=0无解,引入梯度下降法
。
- 介绍梯度下降法
神经网络
引用老师的一张图
线性回归可以被视为神经网络的一种特例,即只有一个输入层和输出层,没有隐藏层。
线性分类
定义: 线性分类问题则是构造分类直线对两类数据进行区分,并输出某一个数据属于某类的概率,此时可用Sigmoid函数进行概率值的变换:
{
y
=
1
1
+
e
−
z
z
=
θ
1
x
1
+
θ
2
x
2
+
θ
0
(1)
\begin{cases} y=\frac{1}{1+e^{-z}} \\ z=\theta_{1}x_1+\theta_{2}x_2+\theta_{0} \tag1 \end{cases}
{y=1+e−z1z=θ1x1+θ2x2+θ0(1)
同线性回归,可构造损失函数并求解。
其他类Sigmoid函数如下所示:
BP算法
定义: 多层前馈网络的反向传播(BP)学习算法,简称 BP 算法 ,它是梯度下降法在多层前馈网络中的应用。
BP神经网络的基本原理和步骤如下所示:
1. 前向传播:
输入数据通过神经网络的输入层,经过一系列的权重和激活函数计算,逐层传递到输出层,得到网络的预测输出。
2. 计算误差:
将网络的预测输出与实际输出进行比较,利用损失函数计算loss。
3. 反向传播:
根据误差,使用梯度下降算法更新网络中的权重,以减小误差。这一过程从输出层开始,逐层向前进行,通过链式法则计算每一层的梯度,然后利用梯度下降法更新权重。
4. 重复训练:
循环上述步骤,直到满足停止条件。
其他
老师会选讲扩散模型的知识,因此先对生成模型做了些了解
DDPM: Denoising Diffusion Probabilistic Models,即去噪扩散概率模型。
扩散模型包括前向扩散
和后向去噪过程
,其中前向扩散通过参数化的步长
β
t
\beta_{t}
βt去逐渐破坏原信号,直至信号服从正态分布,后向去噪过程通过神经网络(可以是CNN, Transformer, S4等
)拟合
t
−
1
t-1
t−1步所加噪声,并由第
t
t
t步带噪声信号
x
t
x_t
xt减去拟合的噪声,从而最终得到初始样本。