c++ 实现linear和CNN神经网络（数学公式）

最新推荐文章于 2023-01-24 15:43:06 发布

叶子心情你不懂

最新推荐文章于 2023-01-24 15:43:06 发布

阅读量863

点赞数

分类专栏：总结报告文章标签：神经网络

本文链接：https://blog.csdn.net/qq_40379678/article/details/106383425

版权

总结报告专栏收录该内容

15 篇文章 3 订阅

订阅专栏

数学：
https://www.cnblogs.com/pinard/p/6422831.html
https://www.cnblogs.com/pinard/p/6494810.html
https://www.cnblogs.com/pinard/p/10750718.html
https://www.cnblogs.com/pinard/p/10773942.html
https://www.cnblogs.com/pinard/p/6494810.html
https://blog.csdn.net/qq_37951753/article/details/79672615
https://blog.csdn.net/evanxxxnnn/article/details/83552318
https://zhuanlan.zhihu.com/p/45310446
https://blog.csdn.net/qq_36342854/article/details/103863741
https://mp.weixin.qq.com/s/2xYgaeLlmmUfxiHCbCa8dQ
c++：
https://www.cnblogs.com/xuefeng00/p/11093425.html
http://www.cplusplus.com/reference/random/normal_distribution/
https://people.sc.fsu.edu/~jburkardt/cpp_src/truncated_normal/truncated_normal.html
https://www.cnblogs.com/jingshikongming/p/9037881.html
https://www.zhihu.com/question/63507542
https://blog.csdn.net/yahamatarge/article/details/89380164
https://www.cnblogs.com/jhmu0613/p/7750798.html
https://blog.csdn.net/qq_25175067/article/details/80266003
https://blog.csdn.net/lmb1612977696/article/details/80035487
http://blog.chinaunix.net/uid-20773165-id-1847733.html
https://baijiahao.baidu.com/s?id=1651645857687261494&wfr=spider&for=pc
https://blog.csdn.net/weixin_34007291/article/details/93528095

理论

多层感知机前向传播及导数

$z^l={w^{l}}a^{l-1}+b^l \\ a^l=\sigma(z^l)\\ m_l\times n=\sigma(m_{l}\times m_{l-1}\times m_{l-1}\times n + m_l\times 1) \\ (m_l,)=\sigma((m_l, m_{l-1})\times(m_{l-1},)+(m_l ,))$

多层感知机反向传播

损失函数：
$\hat{y})$
导数传播
$\begin{aligned} \frac{\partial J(y, \hat{y})}{\partial w^l}& =\frac{\partial J(y, \hat{y})}{\partial z^l}\frac{\partial z^l}{\partial w^l} \\ \frac{\partial J(y, \hat{y})}{\partial z^l}&记为\delta^l \\ \frac{\partial J(y, \hat{y})}{\partial w^l}& =\delta^l\frac{\partial z^l}{\partial w^l}=\delta^l{a^{l-1}}^T \\ \frac{\partial J(y, \hat{y})}{\partial z^L} & = \triangledown J(y,\hat{y}) \\ \delta^{L-1}= \frac{\partial J(y, \hat{y})}{\partial z^{L-1}} & = \frac{\partial J(y, \hat{y})}{\partial z^L}\frac{\partial z^L}{\partial a^{L-1}}\frac{\partial a^{L-1}}{\partial z^{L-1}}={w^L}^T\delta^L \odot \sigma^{'}(z^{L-1}) \\ \frac{\partial J(y, \hat{y})}{\partial b^l}&=\sum_m\delta^l_m \end{aligned}$
所以每层 $l$ 维护
$\frac{\partial z^{l}}{\partial w^l}=a^{l-1}$

每层 $l$ 反向传播时返回
$\frac{\partial J(y, \hat{y})}{\partial z^{l}}$

CNN前向传播

$\\z^l=a^{l-1}*W^l+b^l \\ a^l = \sigma(z^l) \\ 池化: \\ a^l = pooling(a^{l-1})$

CNN反向传播

$\begin{aligned} 卷积: \\ \frac{\partial J(y, \hat{y})}{\partial z^{l}} &=(\frac{\partial z^{l+1}}{\partial z^l} )^T\frac{\partial J(y, \hat{y})}{\partial z^{l+1}} \\ \frac{\partial J(y, \hat{y})}{\partial z^l} &=\delta^l \\z^{l+1}&=a^{l}*W^{l+1}+b^{l+1}=\sigma(z^{l})*W^{l+1}+b^{l+1} \\\frac{\partial z^{l+1}}{\partial z^l}&=rot(W^{l+1}) \odot \sigma^{'}(z^{l}) \\\frac{\partial J(y, \hat{y})}{\partial z^{l}} &= \delta^l=\delta^{l+1}*rot(W^{l+1})\odot \sigma^{'}(z^{l}) \\ \frac{\partial J(y, \hat{y})}{\partial w^{l}} &= a^{l-1}*\delta^l \\ \frac{\partial J(y, \hat{y})}{\partial b^{l}} &=\sum_{i,j} \delta^l_{i,j} \\ 池化： \\ 将\frac{\partial J(y, \hat{y})}{\partial a^{l-1}}&按照池化的权重回填成输入的矩阵\frac{\partial J(y, \hat{y})}{\partial a^l} \end{aligned}$

每层 $l$ 维护：
$雅克比矩阵：\frac{\partial J(y,\hat{y})}{\partial a^{l-1}}=(\frac{\partial z^{l}}{\partial a^{l-1}} )^T\frac{\partial J(y, \hat{y})}{\partial z^{l}} = \delta^{l}*rot(W^{l})\\$

BatchNormal 前向传播

在这里插入图片描述

BatchNormal 反向传播

$\begin{aligned} \frac{\partial J}{\partial \beta}&=\sum\frac{\partial J}{\partial y_i} \\ \frac{\partial J}{\partial \gamma}&=\sum\frac{\partial J}{\partial y_i} \hat{x_i} \\\frac{\partial C}{\partial x_{i}} &=\sum_{k}^{m} \frac{\partial C}{\partial \hat{x}_{k}} \frac{\partial \hat{x}_{k}}{\partial x_{i}} \\ &=\frac{\partial C}{\partial \hat{x}_{i}} \frac{1}{\sqrt{\sigma^{2}+\epsilon}}+\sum_{k}^{m} \frac{\partial C}{\partial \hat{x}_{k}} \frac{\partial \hat{x}_{k}}{\partial \sigma^{2}} \frac{\partial \sigma^{2}}{\partial x_{i}}+\sum_{k}^{m} \frac{\partial C}{\partial \hat{x}_{k}} \frac{\partial \hat{x}_{k}}{\partial \mu} \frac{\partial \mu}{\partial x_{i}} \\ &=\frac{\partial C}{\partial \hat{x}_{i}} \frac{1}{\sqrt{\sigma^{2}+\epsilon}}+\frac{\partial \sigma^{2}}{\partial x_{i}} \cdot \sum_{k}^{m} \frac{\partial C}{\partial \hat{x}_{k}} \frac{\partial \hat{x}_{k}}{\partial \sigma^{2}}+\frac{\partial \mu}{\partial x_{i}} \cdot \sum_{k}^{m} \frac{\partial C}{\partial \hat{x}_{k}} \frac{\partial \hat{x}_{k}}{\partial \mu} \\ \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}} \frac{\partial \hat{x}_{i}}{\partial \sigma^{2}} &=\sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\left[-\frac{1}{2} \frac{x_{i}-\mu}{(\sqrt{\sigma^{2}+\epsilon})^{3}}\right] \\ &=-\frac{1}{2} \frac{1}{(\sqrt{\sigma^{2}+\epsilon})^{3}} \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\left(x_{i}-\mu\right) \\ \frac{\partial \sigma^{2}}{\partial x_{i}} &=\frac{2}{m}\left(x_{i}-\mu\right) \\ \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}} \frac{\partial \hat{x}_{i}}{\partial \mu} &=\frac{-1}{\sqrt{\sigma^{2}+\epsilon}} \cdot \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}} \\ \frac{\partial C}{\partial x_{i}} &=\frac{\partial C}{\partial \hat{x}_{i}} \frac{1}{\sqrt{\sigma^{2}+\epsilon}}+\left[-\frac{1}{2} \frac{1}{(\sqrt{\sigma^{2}+\epsilon})^{3}} \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\left(x_{i}-\mu\right)\right] \frac{2}{m}\left(x_{i}-\mu\right)\\&+\frac{-1}{\sqrt{\sigma^{2}+\epsilon}} \cdot \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}} \frac{1}{m} \\ &=\frac{\partial C}{\partial \hat{x}_{i}} \frac{1}{\sqrt{\sigma^{2}+\epsilon}}- \frac{1}{m} \frac{x_{i}-\mu}{(\sqrt{\sigma^{2}+\epsilon})^{3}} \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\left(x_{i}-\mu\right) \\&-\frac{1}{m} \frac{1}{\sqrt{\sigma^{2}+\epsilon}} \cdot \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}} \\ &=\frac{1}{m} \frac{1}{\sqrt{\sigma^{2}+\epsilon}} \cdot\left\{m \frac{\partial C}{\partial \hat{x}_{i}}-\frac{x_{i}-\mu}{(\sqrt{\sigma^{2}+\epsilon})^{2}} \sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\left(x_{i}-\mu\right)-\sum_{i}^{m} \frac{\partial C}{\partial \hat{x}_{i}}\right\} \end{aligned}$

softmax

原始公式：
$y_i=\frac{x_i}{\sum_jx_j}$
问题：
$e^n$ 当n稍微大点就爆精度了

解决：
$\log{\sum_ie^{x_i}}=a+\log{\sum_ie^{x_i-a}}$
$a$ 取 $x_i$ 中的最大值

初始化

truncated normal

产生截断正态分布随机数，取值范围为 [ mean - 2 * stddev, mean + 2 * stddev ]
只会循环产生随机数，将不满足的去掉
后来翻墙找到了一个库

实践

总目标是跑的快，可能牺牲代码可读性和安全性（瞎几把写）。

类设计

框架

Tensor 类, 维度，计算，名字，初始化
Layer类，输入，输出，参数，反向传播
子类包括CNN、全连接、池化、batchnormal、激活和损失函数层
网络类，一个计算图DAG，用拓扑排序挨个计算，每个节点都是layer，记录入度，包含损失函数类和train、test接口

细节

1. Tensor

元素

data[],一维
shape,vector
grad，null或者和data一样长
name，char数组，默认null

方法

初始化
1. 传入shape和初始化值
2. 传入shape，random初始化
dot
点乘检查shape 遍历
mul
矩阵乘法
检查shape
add
加法检查shape
sub
减法检查shape
div
除法检查shape
print
名字（如果有）维度一行
数据一行
梯度（如果有）一行
可能重载流实现
setName、getName()
重载运算符[]、()
取出data和grad
reshape

2. Layer

元素

无

方法

forward
backward

子类1 linear

神经元个数m，输入的维度
Tensor类，二维，参数W
Tensor类，参数bias
Tensor类，input

子类2 cnn

m,n,h,w，filter 个数，输入的channel，高宽
stride
padding
W 参数（m,n,h,w）
bias 参数（m,）

子类3 maxpooling

h,w,stride
权重图，用于反向传播

子类4 softmax

子类5 relu

子类6 batchnormal

momentum (mean = momentum * mean + (1.0 - momentum) * nowbatchmean)
gamma, beta
mean，var
形状以前一层是CNN还是linear来定

子类7 mse

子类8 cross validation loss

子类9 自定义loss

3. Net

元素

图DAG，链式前向星还是vector再说
每个节点是一个layer，但是要有输入输出buffer，防止分叉的情况重复计算

方法

init 建立好DAG，也就是不支持动态图
train 传入一个batch
test
()重载运算符，前向传播
save
load

叶子心情你不懂

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
c++ 实现linear和CNN神经网络（数学公式）

https://www.cnblogs.com/pinard/p/6422831.htmlhttps://www.cnblogs.com/pinard/p/6494810.htmlhttps://www.cnblogs.com/pinard/p/10750718.htmlhttps://www.cnblogs.com/pinard/p/10773942.html理论多层感知机前向传播及导数al=σ(wlTal−1+bl)ml×n=σ(ml×ml−1×ml−1×n+ml×1)a^l=\sigma(
复制链接

扫一扫

专栏目录