自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Transformer中注意力的计算

输入:4×768QKV:三个 4×768注意力分数:4×4权重矩阵:4×4最终输出:4×768相似度计算 → 权重归一化 → 加权求和维度变化核心含义:用注意力分数对 Value 向量做加权求和,让每个位置的输出特征都能根据注意力权重,动态融合其他位置的信息,这就是自注意力能建模全局依赖的关键。✅。

2026-03-16 15:03:01 416

原创 大模型相关知识

相比传统稠密模型,MoE 能以更低成本实现万亿参数级模型,是当前大模型轻量化、高性能扩展的主流技术,典型代表有 Mixtral-8x7B、Switch Transformer 等。“MoE(混合专家模型)是一种稀疏激活的大模型架构,核心是将传统单一生成的稠密网络,拆分为多个独立的‘专家子网络’和一个‘门控调度网络’。大模型是一个更广泛的概念,GPT 只是其中最具代表性的一类。的大模型架构,核心是把大模型拆成多个 “专精领域” 的独立子网络(专家),再用一个 “调度器”(门控网络)按需分配任务,

2026-03-11 19:51:02 356

原创 深度学习入门:对比学习、GAN、生成式自监督 概念与关系全梳理

对比学习(Contrastive Learning)是自监督学习的一种,在无大量标注数据时,通过比较样本相似 / 差异,学习优质数据表示。GAN(Generative Adversarial Network)是生成模型,2014 年由 Ian Goodfellow 提出,让 AI 生成逼真数据。生成式自监督(Generative Self-Supervised Learning)是无标注训练方法:让模型生成 / 补全数据,用真实数据作为监督信号,自主学习数据规律。无监督:无标签,自主学习数据规律自监督。

2026-02-28 00:53:15 269

原创 CNN 卷积神经网络相关知识点

交叉熵损失能更贴合分类任务目标,且搭配 softmax/sigmoid 时梯度稳定无消失,比 MSE 更适合衡量概率分布的差距。回归用 MSE / MAE分类用 交叉熵AlexNet 是第一个成功的深度 CNN,开启了深度学习;VGG 在它基础上用小卷积核把网络加深;ResNet 则用残差连接解决了深层网络训练不了的问题,让模型可以做到几十上百层,是现在很多网络的基础。残差连接通过构建跨层捷径,让输入直接加到输出,有效缓解深度网络的梯度消失,让模型可以训练得更深、更稳定、精度更高。

2026-02-25 09:40:31 619

原创 基于 PyTorch 实现新冠数据回归预测:从数据处理到模型部署全流程

涵盖从数据预处理到模型部署的全流程。本文基于 PyTorch 框架实现了一套完整的。

2026-02-23 21:26:15 65

原创 基于 PyTorch 实现线性回归(SGD+MAE)

多轮次遍历数据 → 分批取数 → 预测 → 算损失 → 反向传播求梯度 → SGD更新参数 → 累加损失并打印;关键逻辑:每一轮(epoch)都会完整过一遍所有数据,每一批(batch)都会更新一次参数,损失逐渐下降说明模型在学习;核心目的:通过反复的 “预测 - 计算损失 - 更新参数”,让w_0b_0逼近真实的true_wtrue_b,最终让模型预测更准确。这段代码是线性回归模型训练的 “完整闭环”,涵盖了数据加载、模型预测、损失计算、参数优化的全流程,也是深度学习中最基础、最核心的训练范式。

2026-02-20 23:51:32 56

原创 PyTorch 中的Dataset和DataLoader

Dataset是 PyTorch 规定的「数据容器 + 数据读取的标准模板」,专门用来存放你的数据集、定义「如何读取单条样本」的规则。Dataset是一个抽象基类 (ABC),它制定了 PyTorch 读取数据的统一规范,所有和 PyTorch 兼容的数据集,都必须遵循这个规范。这是工作 / 项目中最核心、最常用的写法,没有之一!原因很简单:实际做项目时,我们的数据集都是自己的本地数据。

2026-01-13 14:51:31 875

原创 Embedding

Embedding(嵌入)是的过程,得到的这个向量就叫。,而且这个向量还会保留原始信息的核心特征(比如语义、相似性)。

2026-01-12 22:14:44 317

原创 BERT——预训练语言模型

BERT 是由 Google 于 2018 年提出的,基于 Transformer 的部分构建,核心创新是采用,彻底改变了自然语言处理(NLP)的范式,成为后续众多大模型的基础框架。简单来说:BERT 像一个 “语言学霸”,先通过海量文本数据进行(学习通用的语言知识,如语义、语法、上下文关联),再通过(在具体任务上适配少量标注数据),就能在各类 NLP 任务(如文本分类、问答、命名实体识别)上达到当时的最优效果。

2026-01-11 18:23:26 829

原创 无监督学习

无标注依赖:仅用无标注数据就能训练,彻底解决深度学习的「数据标注瓶颈」;特征质量极高:学出的特征能抓住数据的核心本质,泛化性极强,下游任务微调效果极佳;模型通用性强:一套预训练模型,可迁移到多个下游任务,无需重新训练;技术成熟:模型(MoCo/SimCLR)和损失函数(NT-Xent)都有标准化实现,落地门槛低。对比学习是深度无监督学习→自监督学习下的核心方法,无标注数据驱动,核心目标是学高质量特征;正样本特征拉近,负样本特征推远,最通俗的理解是「看图识人」;

2026-01-10 15:44:56 818

原创 半监督学习

自训练 (Self-Training)核心逻辑:用少量真实标注数据先训练一个基础模型 → 用这个模型给大量无标注数据做预测 → 筛选高质量预测结果 → 把高质量的无标注数据 + 预测标签 当作「新的标注数据」→ 和原标注数据一起继续训练模型 → 循环迭代优化,模型精度逐步提升。伪标签 (Pseudo-Labeling)核心逻辑:模型对无标注数据预测出来的「预测标签」就叫伪标签,区别于人工标注的「真实标签」,伪标签是模型自己生成的标签。

2026-01-09 15:53:59 689

原创 Model

深度学习中的 Model 是解决特定任务的可学习计算框架,核心由 “层结构” 和 “可训练参数” 组成;在 PyTorch 中,Model 表现为继承nn.Module的自定义类,__init__定义结构,forward定义计算逻辑;Model 的核心目标是从训练数据中学习特征映射规则,实现对新数据的准确预测;Model 是深度学习流程的核心,Dataset、优化器、损失函数等组件均围绕 Model 展开。__init__

2026-01-08 16:57:45 1060

原创 Linear层

Linear层(线性层)本质是实现高维线性变换 Y=XW+B,是神经网络最基础的组件;核心作用:变换特征维度、学习特征的线性关系、为非线性激活提供基础;关键特性:必须搭配非线性激活函数才能拟合复杂问题,权重 / 偏置是其需要学习的核心参数。

2026-01-06 15:41:31 694

原创 linear代码

反向传播是深度学习 / 机器学习中用于计算模型参数梯度的核心算法先通过「前向传播」计算模型预测值和损失值(损失值反映模型预测结果与真实标签的差距);再沿着「损失值 → 模型预测值 → 模型参数」的反向路径,根据链式求导法则(复合函数求导法则),从后往前逐层计算每个模型参数对损失值的梯度(偏导数);最终得到的梯度,会用于后续的参数更新(比如你代码中的 SGD 梯度下降),让模型逐渐逼近最优解。

2026-01-04 16:54:06 979

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除