gnimaijul-CSDN博客

原创深度学习part12

1.Encoder和Decoder的输入分别是什么?2.为什么使用Masked Self-Attention（Decoder部分）?3.Cross-Attention（Decoder部分）如何实现?4.训练过程的Loss如何计算?5.训练过程与推断过程有什么差别?

2026-02-22 19:21:52 587

原创深度学习part11----BERT实战

什么是数据不均衡，怎样处理数据不均衡?

2026-02-18 20:46:45 673

1.自然语言处理NLP的发展历程（Gemini生成，仅供参考）特性RNN (循环神经网络)LSTM (长短期记忆网络)处理方式串行(逐个词读)串行(逐个词读)并行(一眼看完)核心机制循环单元门控机制自注意力记忆能力极短 (容易忘)较长 (有选择性记忆)全局(无视距离)训练速度慢 (无法并行)慢 (结构复杂，计算量大)极快(高度并行)主要缺点梯度消失，无法处理长文依然慢，难以训练超大模型计算资源消耗巨大 (显存杀手)当前地位基本被淘汰小规模任务偶尔用绝对统治地位 (SOTA)

2026-02-13 21:03:03 859

原创深度学习part9

没有标签的情况下，如何训练出一个能够提取高质量特征的模型?没有标签的情况下，如何训练出一个能够提取高质量特征的模型?

2026-02-07 21:36:30 690

原创深度学习part8----分类实战（半监督）

半监督学习。

2026-02-03 21:10:48 917

原创深度学习part7----分类实战

前置准备如图所示，数据集（训练集、验证集、测试集）以不同文件夹进行分类，无需手动划分。数据通过调用文件夹或图片路径的方式获取。。

2026-02-02 22:53:57 944

原创深度学习part6----经典卷积模型

经典卷积模型经典卷积模型。

2026-01-30 15:58:40 844

原创深度学习part5----CNN卷积神经网络

1.卷积神经网络(CNN)的核心流程是什么?步骤组件一句话比喻功能第一步卷积层 (Conv)放大镜 / 扫描仪找特征：发现图片里的线条、形状、纹理。第二步池化层 (Pool)缩印机降维度：保留主要特征，缩小图片，减少计算。第三步全连接层 (FC)裁判员做分类：根据特征打分，给出最终结果。2.卷积和全连接有何种关系?如上图所示，可以看出二者显著区别是：①卷积为非全连接（例：卷积后特征图的2只与原始图片的1、2、4、5相连）

2026-01-29 12:01:29 1026

原创深度学习part4----回归实战

本次实战为多年前李宏毅老师的机器学习作业，基本涵盖了深度学习的完整流程：数据加载 -> 模型构建 -> 训练与验证 -> 测试与结果保存。简略描述如下:核心流程如下:数据分为:训练集、验证集、测试集。其中,验证集是从大量训练集分出来的一小部分,测试集是模型未曾见过的数据样本。流程可以总体概括为:在不断试错中学习（训练），在旁观测试中检验（

2026-01-25 15:04:30 183

原创深度学习part3

定义函数(模型)计算预测值pred_y=torch.matmul(x,w)+b #预测值#定义损失函数lossreturn torch.sum(abs(pred_y-y))/len(y) #每组loss的绝对值进行求和,再除组数,计算平均值#定义优化算法(随机梯度下降,更新参数)#paras:w&b整合在一起的参数列表,lr:学习率with torch.no_grad(): #torch.no_grad:只是数值更新,不需要记录进张量网,不需要计算梯度。

2026-01-22 11:48:21 334

原创深度学习part2

( 注: r中的b为矩阵,yˇ中单独加的b为数,但在矩阵运算时,为数字的b会自动补为矩阵)激活函数特性: ①可求导 ②无参数 ③非线性 ④不是每个神经元都有。激活位置(时机): 如图,在r₁向下一层传递时,经过激活过程。(目的:相当于引入非线性元素,使得神经网络可以逼近任何。没有区别(即:纯粹地加深网络层数没有用)欠拟合: 得到的函数和数据之间完全不相关。过拟合: 过度到连噪声数据都和函数相关了。(逐层链式求导),使用梯度下降的方法。,待训练 (初始值:随机)的乘法&加法运算,此种。

2026-01-21 14:48:40 537

原创深度学习part1

一组w,b决定一个Loss值,Loss用来判断此组w,b是否合适,Loss为多组数据取平均值的结果。y₁为预测值,w与b分别为权重与偏差,w与b均为未知参数。②分类任务:一种分类,对号入座(选择题,已知答案)step2::定义一个合适的损失函数loss。::更新w(w₁=w₀-n*k,n为学习率)③生成任务(结构化):具有关联性(简答题)②损失函数Loss(w,b)=|y₁-y|::算L对w的偏导,记为k(在w₀点处)③优化(求使Loss最小的一组w,b)step1::定义一个函数(模型)

2026-01-19 18:22:23 508

2401_83266994的博客