记一次简单的深度学习——一个简易神经网络

最新推荐文章于 2024-07-12 16:21:48 发布

LI_AL

最新推荐文章于 2024-07-12 16:21:48 发布

阅读量86

点赞数 1

文章标签：深度学习神经网络人工智能

本文链接：https://blog.csdn.net/qq_51299233/article/details/131753282

版权

记一次简单的深度学习——一个简易神经网络

代码

import torch
"""
一次完整的训练：
输入：100个具有1000个特征的数据
经过隐藏层：100个具有100个特征的数据
经过输出层：100个具有10个分类结果值的数据
在得到数据结果后还可以计算损失并进行后向传播（预测结果+实际值->损失->后向传播优化参数）
一次完整的训练OVER

循环这个流程可以完成指定次数的训练，并优化模型参数
"""
batch_n = 100  # 一个批次输入100个数据
hidden_layer = 100  # 经过隐藏层后保留的数据特征个数
input_data = 1000  # 输入时每个数据的特征个数
output_data = 10  # 输出时每个数据的特征个数

# 用randn随机生成输入数据x与真实值y
x = torch.randn(batch_n, input_data)  # 输入：100个具有1000个特征的数据
y = torch.randn(batch_n, output_data)  # 输出：100个具有10个分类结果值的数据
# 用randn随机初始化权重参数（这里暂时不讨论权重初始化的专门方法，初始生成用随机）
w1 = torch.randn(input_data, hidden_layer)  # 经过隐藏层：100个具有100个特征的数据
w2 = torch.randn(hidden_layer, output_data)  # 经过输出层：100个具有10个分类结果值的数据

epoch_n = 20  # 训练的轮次数
learning_rate = 1e-6  # 学习率（用于控制梯度更新的快慢）

for epoch in range(epoch_n):
    # 隐藏层
    h = x.mm(w1)  # (100,1000)*(1000*100)->(100,100) 100个具有100个特征的数据
    h = h.clamp(min=0)  # clamp剪裁，小于0的值赋为0（相当于加上ReLU激活函数）
    # 输出层
    y_pred = h.mm(w2)  # (100,100)*(100,10)=(100,10) 100个具有10个特征的数据
    # 计算损失
    loss = (y_pred - y).pow(2).sum()  # 平方损失
    print("Epoch:{}, Loss:{:.4f}".format(epoch, loss))
    # 后向传播，优化参数
    grad_y_pred = 2 * (y_pred - y)
    grad_w2 = h.t().mm(grad_y_pred)

    grad_h = grad_y_pred.clone()
    grad_h = grad_h.mm(w2.t())
    grad_h.clamp(min=0)
    grad_w1 = x.t().mm(grad_h)

    w1 -= learning_rate*grad_w1
    w2 -= learning_rate*grad_w2

后向传播

由于数学公式在代码中不好表示，下面对“后向传播，优化参数”这个过程进行详细补充说明：

要计算梯度，就要后向传播梯度，要后向传播，就要先知道前向是怎么传播的，我们已经有的公式是：
$h={\rm clamp}(xw_1)\\ y_{\rm pred}=hw_2\\ loss={(y_{\rm pred}-y)}^2 \\{\rm (这里忽略sum() 是因为sum()是为了把损失张量转标量，并没有其他运算意义)}$
据此，我们可以得到前向传播图（前向传播就是从输入到输出，把变量以及变换用拓扑图表示出来，这里我们为了计算，把 $l oss$ 也加上）：
在这里插入图片描述
我们要算 $w_1$ 的梯度就要先算 $h$ 的梯度，要算 $h$ 的梯度就要先算 $y_{\rm pred}$ 的梯度（这也体现了梯度传播链，并且“后向”），则有以下梯度计算过程（与上述代码相对应）：
$grad(y_{\rm pred}) =\frac{\partial loss}{\partial y_{\rm pred}} =\frac{\partial ((y_{\rm pred}-y)^2)}{\partial y_{\rm pred}} =2(y_{\rm pred}-y)$

$=\frac{\partial loss}{\partial h} =\frac{\partial loss}{\partial y_{\rm pred}}\frac{\partial y_{\rm pred}}{\partial h} =grad(y_{\rm pred})\frac{\partial y_{\rm pred}}{\partial h} =2(y_{\rm pred}-y)\frac{\partial hw_2}{\partial h} =2(y_{\rm pred}-y)w_2$

同理得： $grad(w_2)=2(y_{\rm pred}-y)h$
$grad(w_1) =\frac{\partial loss}{\partial w_1} =\frac{\partial loss}{\partial h}\frac{\partial h}{\partial w_1} =grad(h)\frac{\partial h}{\partial w_1} =2(y_{\rm pred}-y)w_2\frac{\partial {\rm clamp}(xw_1)}{\partial w_1}$
求到这里就出现问题了 $\partial {\rm clamp}$ 要怎么处理？

$\rm clamp$ 相当于ReLU激活函数，长下面这个样子：
在这里插入图片描述
${\rm ReLU}(x)=\begin{cases}x&x\gt0\\0&x\le0\end{cases}$
发现它的导数很有特征，大于0导数就是1，小于0导数就是0，那么：
$grad(w_1) =grad(h)\frac{\partial h}{\partial w_1} =grad(h)\frac{\partial {\rm clamp}(xw_1)}{\partial w_1} =grad(h)\frac{\partial {\rm clamp}(xw_1)}{\partial xw_1}\frac{\partial xw_1}{\partial w_1} =grad(h)x\frac{\partial {\rm clamp}(xw_1)}{\partial xw_1}\\ =\begin{cases}grad(h)x&xw_1=h\gt 0\\0&xw_1=h\le 0\end{cases}$
（注意 $x$ 是常量，更不用说就算 $x$ 是变量求偏导也要看成常量）

那么这个结果其实跟 $g r a d (h)$ 先进行clamp()处理再乘以 $x$ 是一样的，即：
$grad(w_1) =\begin{cases}grad(h)x&h\gt 0\\0&h\le 0\end{cases} =(\begin{cases}grad(h)&h\gt 0\\0&h\le 0\end{cases})\times x={\rm clamp}(grad(h))\times x$

也即代码中的这两行grad_h.clamp(min=0)、grad_w1 = x.t().mm(grad_h)。

至于 $x$ 它是常量，而且我们用不到它的梯度，所以就不求。那么至此，所有的梯度都求解完毕。

参数优化

讲完了“后向传播”，该讲“参数优化”了：

对于参数优化是有固定公式的： $\theta_j=\theta_j-\eta\times\frac{\partial Loss(\theta_j)}{\theta_j}$ 即 $\theta_j-=\eta\times grad(\theta_j)$ 。对应代码中的这两行w1 -= learning_rate*grad_w1、w2 -= learning_rate*grad_w2。

好了，至此，“一个简易神经网络”就讲解完毕了。

其他

什么？你问博主为什么要写这么多，这不是很简单吗，为什么连乘法交换律这样的小学知识也要写出来？因为博主是个大笨比😢，第一次接触深度学习，每一行代码都像是大怪兽一样让我感到深深的无助，在与怪兽经历长时间搏斗后终于胜利了，这兴奋不亚于我第一次学会hello world，贴出来给自己加油，鼓励自己即使是个大笨比也要坚持学下去。（不要在评论区喷我，博主很脆弱）

LI_AL

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
记一次简单的深度学习——一个简易神经网络

你问博主为什么要写这么多，这不是很简单吗，为什么连乘法交换律这样的小学知识也要写出来？因为博主是个大笨比😢，第一次接触深度学习，每一行代码都像是大怪兽一样让我感到深深的无助，在与怪兽经历长时间搏斗后终于胜利了，这兴奋不亚于我第一次学会。据此，我们可以得到前向传播图（前向传播就是从输入到输出，把变量以及变换用拓扑图表示出来，这里我们为了计算，把。，贴出来给自己加油，鼓励自己即使是个大笨比也要坚持学下去。它是常量，而且我们用不到它的梯度，所以就不求。好了，至此，“一个简易神经网络”就讲解完毕了。
复制链接

扫一扫