全连接层（Fully Connected Layer, FC Layer）详解

浩瀚之水_csdn

已于 2025-04-03 15:20:13 修改

阅读量1.5k

点赞数 2

分类专栏： # 深度学习基础知识文章标签：深度学习

于 2024-09-04 21:51:07 首次发布

本文链接：https://blog.csdn.net/a8039974/article/details/141905177

版权

深度学习基础知识专栏收录该内容

127 篇文章

订阅专栏

一、定义与作用

全连接层是神经网络中的一种经典层结构，每个神经元与前一层的所有神经元相连，实现全局特征的整合与映射。

输入：扁平化后的特征向量（例如将卷积层输出的多维特征图展平为向量）。
输出：通过权重矩阵和激活函数生成预测结果（如分类概率或回归值）。

核心作用：

特征整合：将局部特征（如卷积层提取的纹理、形状）映射到全局语义（如物体类别）。
非线性映射：通过激活函数（如ReLU、Softmax）增强模型的表达能力。
任务适配：作为分类器（输出类别概率）或回归器（输出连续值）。

二、结构与参数计算

三、全连接层的典型应用

分类任务末端
- 传统CNN（如AlexNet、VGG）末端的全连接层将特征映射到类别概率（配合Softmax）。
- 示例：VGG16最后3个全连接层（4096→4096→1000）。
特征嵌入（Embedding）
- 用于降维或特征压缩（如将高维特征映射到低维语义空间）。
回归任务
- 输出连续值（如目标检测中的边界框坐标、姿态估计中的角度）。

四、全连接层 vs. 卷积层

特性	全连接层	卷积层
连接方式	全局连接	局部连接（感受野）
参数效率	参数量大（易过拟合）	参数量小（权值共享）
空间信息处理	丢失空间结构	保留空间结构
适用场景	分类/回归任务末端	特征提取（边缘、纹理等）

五、全连接层的局限性

参数量过大
- 输入维度高时，参数爆炸（例如输入特征图7×7×512，全连接输出4096，参数量达 7×7×512×4096≈1亿）。
过拟合风险
- 高参数量需大量数据支撑，否则易过拟合（需配合Dropout、正则化）。
输入尺寸固定
- 全连接层要求输入向量长度固定，限制模型灵活性（无法处理多尺寸输入）。

六、全连接层的替代方案

全局平均池化（GAP）
- 直接对特征图各通道取均值，替代全连接层（参数量为0），广泛用于轻量化网络（如ResNet、SqueezeNet）。
1×1卷积层
- 用1×1卷积替代全连接层，保留空间信息并减少参数（如NiN网络）。
动态全连接（Dynamic FC）
- 根据输入动态生成权重，减少固定参数（如Transformer中的自适应连接）。

七、代码实现（PyTorch & TensorFlow）

PyTorch

import torch.nn as nn

# 展平操作 + 全连接层
model = nn.Sequential(
    nn.Flatten(),                  # 将特征图展平为向量
    nn.Linear(7 * 7 * 512, 4096),       # 全连接层1
    nn.ReLU(),
    nn.Dropout(0.5),               # 防止过拟合
    nn.Linear(4096, 10)            # 全连接层2（输出10分类）
)

TensorFlow/Keras

from tensorflow.keras import layers

model = tf.keras.Sequential([
    layers.Flatten(),              # 展平
    layers.Dense(4096, activation='relu'),  # 全连接层1
    layers.Dropout(0.5),
    layers.Dense(10, activation='softmax') # 输出层
])