深度学习——全连接层（Fully connected dence layers）原理解析

最新推荐文章于 2025-04-15 12:20:00 发布

jmucvm

最新推荐文章于 2025-04-15 12:20:00 发布

阅读量2.7w

点赞数 6

分类专栏：计算机视觉深度学习文章标签：全连接层 BP

本文链接：https://blog.csdn.net/jmu201521121021/article/details/86756842

版权

深度学习同时被 2 个专栏收录

34 篇文章

订阅专栏

计算机视觉

23 篇文章

订阅专栏

本文深入解析深度学习中全连接层的工作原理，包括前向传播和反向传播算法，适用于图像分类等任务，详细介绍了单层全连接层的计算过程及微积分基础知识的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习——全连接层（Fully connected dence layers）原理解析

一、简介

全连接层有多个神经元，是一个列向量(单个样本)。在计算机视觉领域正常用于深度神经网络的后面几层，用于图像分类任务。
全连接层算法包括两部分：前向传播(Forward)和反向传播(Backward)

二、算法解析

前向传播(Forward)

在这里插入图片描述

上图主要有5个变量， $a,W,b,\sigma$ ，上图是单层的全连接层，只有一个神经元。
$x$ ：代表一个样本输入的特征的向量，上图 $x$ 是第 $L^{[0]}$ 层输入，维度为(12287,1)
$w$ : 代表第1层全连接层的权重,维度为（12287，1）
$b$ : 代表偏置，维度为（1，1）
$z$ : 代表神经元的线性计算 $z = W^{T}x + b$ ，维度（1，1）
$\sigma$ : $=\sigma(z)$ 激活函数
$L$ : 交叉熵
$J$ : 损失函数
图中公式(1)(2)(3)(4)就是前向传播过程，Loss Function 为交叉熵。

反向传播

这里也讲解单层的全连接层的反传。反向传播算法是上世纪Hinton发表在nature上一对深度学习影响巨大的算法。读者需要具备点微积分的知识，主要用到链式法则（chain rule）。
假设输入数据有m个样本，激活函数为 $\quad \sigma(x)= \frac{1}{1+e^{-x}}, \sigma(x)' = \sigma(x)(1-\sigma(x))$ ,算法流程
——————————————————————————————————
$J = 0, d W = 0, d b = 0, d z = 0$
$\quad i \quad in \quad m:$
$\quad$ // Forward coumpute
$\quad z_i = W^{T}x^{i} + b$
$\quad a_i= \sigma(z_i)$
$\quad J += -(y_ilog(a_i) + (1-y_i)log(1-a_i))$
$\quad$ // Backward
$\quad dA = \frac{y_i}{a_i} - \frac{1-y_i}{1-a_i}$
$\quad dZ = dA*\sigma(z)'=a _i- y_i$
$\quad dW += x_idZ$
$\quad db += dZ$
$\frac{-1}{m}J,dW = \frac{1}{m}dW, db=\frac{1}{m}db$
——————————————————————————————————
$\frac{\partial{J}}{\partial{a_i}}$
$\frac{\partial{J}}{\partial{a_i}} \frac{\partial{a_i}}{\partial{z_i}}$
$=\frac{\partial{J}}{\partial{z_i}} \frac{\partial{z_i}}{\partial{W}}$
$\frac{\partial{J}}{\partial{a_i}} \frac{\partial{a_i}}{\partial{b}}$
在实际编程中需要注意变量的维度。
可以看得出上面算法有个for循环，所以可以用矩阵把它优化，变为下面公式
$\frac{\partial{J}}{\partial{A}} \frac{\partial{A}}{\partial{z}} =A-Y$
$=\frac{\partial{J}}{\partial{z}} \frac{\partial{z}}{\partial{W}}=\frac{1}{m}dZX^{T}$
$\frac{\partial{J}}{\partial{a}} \frac{\partial{a}}{\partial{b}}=\frac{1}{m}np.sum(dZ,axis=1,keepdims=True)$