好好睡觉……-CSDN博客

原创 Transformer注意力机制由来

人类大脑通过注意力机制高效筛选关键信息，这一原理被AI借鉴形成注意力模型。如查找合影中的红衣服者：大脑用"红色衣服"作为查询(Query)，扫描照片中每个人的特征(Key)，当匹配到"红色T恤"时，就聚焦该人物(Value)。这种机制模拟了人类选择性关注核心信息的能力，使AI能像人一样快速定位关键内容。

2025-08-01 16:39:13 224

原创 CNN卷积神经网络各模块作用讲解

CNN（卷积神经网络）通过局部连接和参数共享显著减少参数量，提高训练效率。其核心组件包括卷积层（提取局部特征）、池化层（降采样）、填充（控制输出尺寸）和步幅（调节滑动步长）。多通道输出机制允许每个卷积核生成独立特征图，例如64个5×5核处理32×32×3输入可输出32×32×64特征。1×1卷积可调整通道数，控制模型复杂度。这些特性使CNN特别适合处理图像等具有空间局部性的数据。

2025-08-01 16:35:02 331

RNN（循环神经网络）是一种处理序列数据的神经网络架构，解决了传统全连接网络无法处理变长序列和序列间信息共享的问题。其核心是循环体结构，通过隐藏状态在不同时间步传递信息，实现序列特征的共享。RNN架构包含输入层、循环体和输出层，支持多对一、一对多、多对多等不同输入输出组合模式。但RNN存在长期依赖问题，即难以捕捉远距离序列关系。为此发展出LSTM和GRU等改进模型。RNN广泛应用于文本分类、机器翻译、语音识别等领域。

2025-08-01 16:22:49 647

原创 Transformer详细讲解（按模块讲解诶）

Transformer模型是一种基于自注意力机制的神经网络架构，主要由编码器(Encoder)和解码器(Decoder)组成。其输入由词嵌入和位置编码相加而成，解决了传统序列模型无法捕获位置信息的问题。核心组件Self-Attention通过计算查询(Q)、键(K)、值(V)矩阵来获取单词间的关联度，并采用多头注意力机制从不同子空间学习特征。模型还包含残差连接和层归一化(Add & Norm)来稳定训练，以及前馈网络(FFN)进行非线性变换。编码器通过堆叠多个这样的模块，逐步提取和融合上下文信息，形

2025-08-01 16:16:12 911