【听说你还不会?】多层神经网络原理详细推导

1 结构

在这里插入图片描述

第0层是输入层,输入为X,维度为 ( n [ 0 ] , m ) (n^{[0]},m) (n[0],m),其中 n [ 0 ] n^{[0]} n[0]表示第0层含有的节点,也是X的特征数。 m m m表示样本数。

以此类推,第1层的节点数 n [ 1 ] n^{[1]} n[1],第2层的节点数 n [ 2 ] n^{[2]} n[2],…,第L层的节点数 n [ L ] n^{[L]} n[L]

2 正向过程

第0层输入层数据 X X X,维度 ( n [ 0 ] , m ) (n^{[0]},m) (n[0],m) n [ 0 ] n^{[0]} n[0]表示第0层含有的节点,也是X的特征数。 m m m表示样本数。

第1层: Z [ 1 ] = W [ 1 ] X + b [ 1 ] Z^{[1]}=W^{[1]}X+b^{[1]} Z[1]=W[1]X+b[1] A [ 1 ] = g [ 1 ] ( Z [ 1 ] ) A^{[1]}=g^{[1]}(Z^{[1]}) A[1]=g[1](Z[1]) W [ 1 ] W^{[1]} W[1]表示第1层权值,维度 ( n [ 1 ] , n [ 0 ] ) (n^{[1]},n^{[0]}) (n[1],n[0]) b [ 1 ] b^{[1]} b[1]表示第1层偏置,维度 ( n [ 1 ] , 1 ) (n^{[1]},1) (n[1],1),这里的加号“+”,使用了广播方式,会将 b [ 1 ] b^{[1]} b[1]按列复制成维度 ( n [ 1 ] , m ) (n^{[1]},m) (n[1],m),从而与前面的 W [ 1 ] X W^{[1]}X W[1]X相加。 Z [ 1 ] Z^{[1]} Z[1]是第1层线性处理后的值,维度 ( n [ 1 ] , m ) (n^{[1]},m) (n[1],m) g [ 1 ] g^{[1]} g[1]表示第1层的激活函数, A [ 1 ] A^{[1]} A[1]表示第1层的输出,维度 ( n [ 1 ] , m ) (n^{[1]},m) (n[1],m)

第2层: Z [ 2 ] = W [ 2 ] A [ 1 ] + b [ 2 ] Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]} Z[2]=W[2]A[1]+b[2] A [ 2 ] = g [ 2 ] ( Z [ 2 ] ) A^{[2]}=g^{[2]}(Z^{[2]}) A[2]=g[2](Z[2]) W [ 2 ] W^{[2]} W[2]表示第2层权值,维度 ( n [ 2 ] , n [ 1 ] ) (n^{[2]},n^{[1]}) (n[2],n[1]) b [ 2 ] b^{[2]} b[2]表示第2层偏置,维度 ( n [ 2 ] , 1 ) (n^{[2]},1) (n[2],1) Z [ 2 ] Z^{[2]} Z[2]是第2层线性处理后的值,维度 ( n [ 2 ] , m ) (n^{[2]},m) (n[2],m) g [ 2 ] g^{[2]} g[2]表示第2层的激活函数, A [ 2 ] A^{[2]} A[2]表示第2层的输出,维度 ( n [ 2 ] , m ) (n^{[2]},m) (n[2],m)

第L层: Z [ L ] = W [ L ] A [ L − 1 ] + b [ L ] Z^{[L]}=W^{[L]}A^{[L-1]}+b^{[L]} Z[L]=W[L]A[L1]+b[L] A [ L ] = g [ L ] ( Z [ L ] ) A^{[L]}=g^{[L]}(Z^{[L]}) A[L]=g[L](Z[L]) W [ L ] W^{[L]} W[L]表示第L层权值,维度 ( n [ L ] , n [ L − 1 ] ) (n^{[L]},n^{[L-1]}) (n[L],n[L1]) b [ L ] b^{[L]} b[L]表示第L层偏置,维度 ( n [ L ] , 1 ) (n^{[L]},1) (n[L],1) Z [ L ] Z^{[L]} Z[L]是第L层线性处理后的值,维度 ( n [ L ] , m ) (n^{[L]},m) (n[L],m) g [ L ] g^{[L]} g[L]表示第L层的激活函数, A [ L ] A^{[L]} A[L]表示第L层的输出,维度 ( n [ L ] , m ) (n^{[L]},m) (n[L],m) A [ L ] A^{[L]} A[L]就是网络的输出。

写在一起就是:

在这里插入图片描述

3 loss

损失函数可以有很多,如交叉熵,MSE等等

E = l o s s ( A [ L ] ) E=loss(A^{[L]}) E=loss(A[L])

4 反向传播

在这里插入图片描述

后续的,以此类推即可完成所有层的反向传播。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一朝英雄拔剑起

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值