金属音符-CSDN博客

原创 Transformer中注意力的计算

输入：4×768QKV：三个 4×768注意力分数：4×4权重矩阵：4×4最终输出：4×768相似度计算 → 权重归一化 → 加权求和维度变化核心含义：用注意力分数对 Value 向量做加权求和，让每个位置的输出特征都能根据注意力权重，动态融合其他位置的信息，这就是自注意力能建模全局依赖的关键。✅。

2026-03-16 15:03:01 416

相比传统稠密模型，MoE 能以更低成本实现万亿参数级模型，是当前大模型轻量化、高性能扩展的主流技术，典型代表有 Mixtral-8x7B、Switch Transformer 等。“MoE（混合专家模型）是一种稀疏激活的大模型架构，核心是将传统单一生成的稠密网络，拆分为多个独立的‘专家子网络’和一个‘门控调度网络’。大模型是一个更广泛的概念，GPT 只是其中最具代表性的一类。的大模型架构，核心是把大模型拆成多个 “专精领域” 的独立子网络（专家），再用一个 “调度器”（门控网络）按需分配任务，

2026-03-11 19:51:02 356

原创深度学习入门：对比学习、GAN、生成式自监督概念与关系全梳理

对比学习（Contrastive Learning）是自监督学习的一种，在无大量标注数据时，通过比较样本相似 / 差异，学习优质数据表示。GAN（Generative Adversarial Network）是生成模型，2014 年由 Ian Goodfellow 提出，让 AI 生成逼真数据。生成式自监督（Generative Self-Supervised Learning）是无标注训练方法：让模型生成 / 补全数据，用真实数据作为监督信号，自主学习数据规律。无监督：无标签，自主学习数据规律自监督。

2026-02-28 00:53:15 269

原创 CNN 卷积神经网络相关知识点

交叉熵损失能更贴合分类任务目标，且搭配 softmax/sigmoid 时梯度稳定无消失，比 MSE 更适合衡量概率分布的差距。回归用 MSE / MAE分类用交叉熵AlexNet 是第一个成功的深度 CNN，开启了深度学习；VGG 在它基础上用小卷积核把网络加深；ResNet 则用残差连接解决了深层网络训练不了的问题，让模型可以做到几十上百层，是现在很多网络的基础。残差连接通过构建跨层捷径，让输入直接加到输出，有效缓解深度网络的梯度消失，让模型可以训练得更深、更稳定、精度更高。

2026-02-25 09:40:31 619

原创基于 PyTorch 实现新冠数据回归预测：从数据处理到模型部署全流程

涵盖从数据预处理到模型部署的全流程。本文基于 PyTorch 框架实现了一套完整的。

2026-02-23 21:26:15 65

原创基于 PyTorch 实现线性回归（SGD+MAE）

多轮次遍历数据 → 分批取数 → 预测 → 算损失 → 反向传播求梯度 → SGD更新参数 → 累加损失并打印；关键逻辑：每一轮（epoch）都会完整过一遍所有数据，每一批（batch）都会更新一次参数，损失逐渐下降说明模型在学习；核心目的：通过反复的 “预测 - 计算损失 - 更新参数”，让w_0b_0逼近真实的true_wtrue_b，最终让模型预测更准确。这段代码是线性回归模型训练的 “完整闭环”，涵盖了数据加载、模型预测、损失计算、参数优化的全流程，也是深度学习中最基础、最核心的训练范式。

2026-02-20 23:51:32 56

原创 PyTorch 中的Dataset和DataLoader

Dataset是 PyTorch 规定的「数据容器 + 数据读取的标准模板」，专门用来存放你的数据集、定义「如何读取单条样本」的规则。Dataset是一个抽象基类 (ABC)，它制定了 PyTorch 读取数据的统一规范，所有和 PyTorch 兼容的数据集，都必须遵循这个规范。这是工作 / 项目中最核心、最常用的写法，没有之一！原因很简单：实际做项目时，我们的数据集都是自己的本地数据。

2026-01-13 14:51:31 875

原创 Embedding

Embedding（嵌入）是的过程，得到的这个向量就叫。，而且这个向量还会保留原始信息的核心特征（比如语义、相似性）。

2026-01-12 22:14:44 317

原创 BERT——预训练语言模型

BERT 是由 Google 于 2018 年提出的，基于 Transformer 的部分构建，核心创新是采用，彻底改变了自然语言处理（NLP）的范式，成为后续众多大模型的基础框架。简单来说：BERT 像一个 “语言学霸”，先通过海量文本数据进行（学习通用的语言知识，如语义、语法、上下文关联），再通过（在具体任务上适配少量标注数据），就能在各类 NLP 任务（如文本分类、问答、命名实体识别）上达到当时的最优效果。

2026-01-11 18:23:26 829

原创无监督学习

无标注依赖：仅用无标注数据就能训练，彻底解决深度学习的「数据标注瓶颈」；特征质量极高：学出的特征能抓住数据的核心本质，泛化性极强，下游任务微调效果极佳；模型通用性强：一套预训练模型，可迁移到多个下游任务，无需重新训练；技术成熟：模型（MoCo/SimCLR）和损失函数（NT-Xent）都有标准化实现，落地门槛低。对比学习是深度无监督学习→自监督学习下的核心方法，无标注数据驱动，核心目标是学高质量特征；正样本特征拉近，负样本特征推远，最通俗的理解是「看图识人」；

2026-01-10 15:44:56 818

原创半监督学习

自训练 (Self-Training)核心逻辑：用少量真实标注数据先训练一个基础模型 → 用这个模型给大量无标注数据做预测 → 筛选高质量预测结果 → 把高质量的无标注数据 + 预测标签当作「新的标注数据」→ 和原标注数据一起继续训练模型 → 循环迭代优化，模型精度逐步提升。伪标签 (Pseudo-Labeling)核心逻辑：模型对无标注数据预测出来的「预测标签」就叫伪标签，区别于人工标注的「真实标签」，伪标签是模型自己生成的标签。

2026-01-09 15:53:59 689

原创 Model

深度学习中的 Model 是解决特定任务的可学习计算框架，核心由 “层结构” 和 “可训练参数” 组成；在 PyTorch 中，Model 表现为继承nn.Module的自定义类，__init__定义结构，forward定义计算逻辑；Model 的核心目标是从训练数据中学习特征映射规则，实现对新数据的准确预测；Model 是深度学习流程的核心，Dataset、优化器、损失函数等组件均围绕 Model 展开。__init__

2026-01-08 16:57:45 1060

原创 Linear层

Linear层（线性层）本质是实现高维线性变换 Y=XW+B，是神经网络最基础的组件；核心作用：变换特征维度、学习特征的线性关系、为非线性激活提供基础；关键特性：必须搭配非线性激活函数才能拟合复杂问题，权重 / 偏置是其需要学习的核心参数。

2026-01-06 15:41:31 694

原创 linear代码

反向传播是深度学习 / 机器学习中用于计算模型参数梯度的核心算法先通过「前向传播」计算模型预测值和损失值（损失值反映模型预测结果与真实标签的差距）；再沿着「损失值 → 模型预测值 → 模型参数」的反向路径，根据链式求导法则（复合函数求导法则），从后往前逐层计算每个模型参数对损失值的梯度（偏导数）；最终得到的梯度，会用于后续的参数更新（比如你代码中的 SGD 梯度下降），让模型逐渐逼近最优解。

2026-01-04 16:54:06 979

COCOxPINEAPPLE的博客