OreoCC-CSDN博客

原创深度学习总结

粗算一下几个月来做了不少实验，也算是给自己留个记录吧，本文仅对自己前序的文章进行一个总结，也方便供自己随时查找相关内容。本文不定时对自己所做内容进行更新。

2024-11-06 14:17:44 640

创建一个大小为 [max_len,embed_dim]的零张量# 创建一个形状为 [max_len,1] 的位置索引张量pe[:,0::2]=torch.sin(position*div_term) # 计算 PE(pos,2i)pe[:,1::2]=torch.cos(position*div_term) # 计算 PE(pos,2i+1)# 将位置编码张量注册为模型的缓冲区，参数不参与梯度下降，保存model的时候会将其保存下来# 将位置编码添加到输入张量中，注意位置编码的形状。

2025-04-27 12:31:29 813

原创第TR4周：Transformer中的位置编码详解

位置编码记录了文本中字符的位置信息，这里位置信息的记录不使用单个数字（例如索引值）来记录位置信息的原因有很多。对于长序列，索引的大小可能会变大，不利于存储。如果将索引值规范化为介于0~1之间，则可能会为可变长度序列带来问题，因为他们的标准化方式不同Transformers 使用只能位置编码方案，其中每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行代表序列中的一个编码对象与其位置信息相加。下图显示了仅对位置信息进行编码的矩阵示例。

2025-04-27 08:34:28 1006

原创第TR3周：Pytorch复现Transformer

📌本周任务详情：在之前的任务重我们学习了 Seq2Seq，知晓了 Attention 为 RNN 带来的优点。那么有没有一种神经网络结构直接基于 attention 构造，并且不再依赖 RNN、LSTM 或者 CNN 网络结构了呢？答案便是：Transformer。Seq2Seq 和 Transformer 都是用于处理序列数据的深度学习模型，但它们是两种不同的架构。1.Seq2Seq：2.Transformer：在某种程度上，可以将 Transformer 看作是 Seq2S

2025-04-21 12:23:46 944

原创第TR2周：图解Self-Attention与Multi-Head Attention

如何你已经明白了上面关于注意力的含义和计算过程，那么多头注意力机制就很好理解。对于自注意力而言，获取每个input 的 output ，需要计算 k、q、v，而 k、q、v 由 input 乘以对应的权重 weight 获取。这里的多头指的就是有多组weight，类似于GoogleLeNet 中一个 conv层有多个尺度不一的卷积核，都增加了模型的复杂度，从而能够容纳更多不同“角度”的特征。多头注意力机制。

2025-04-21 08:22:04 798

原创第TR1周： Transformer 算法详解

Transformer 网络架构由 Ashish Vaswani 等人在 Attention Is All You Need 一文中提出，并用于机器翻译任务，和以往网络架构有所区别的是，该网络架构中，编码器和解码器没有采用 RNN 或 CNN 等网络架构，而是采用完全依赖注意力机制的架构。网络架构如下所示：Transformer改进了RNN被人诟病的训练慢的特点，利用self-attention可以实现快速并行。下面的章节会详细介绍Transformer的各个组成部分。

2025-04-14 12:55:42 1122

原创第R9周：阿尔茨海默病诊断（优化特征选择版）

- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**本人往期文章可查阅：一些思路：当看到这个项目数据的时候，第一反应是数据维度很多，一般是先要做特征提取，降维等操作。

2025-04-14 07:55:41 1003

原创第R8周：RNN实现阿尔茨海默病诊断（pytorch）

训练循环size=len(dataloader.dataset) # 训练集的大小num_batches=len(dataloader) # 批次数目，（size/batch_size，向上取整）train_loss,train_acc=0,0 # 初始化训练损失和正确率for x,y in dataloader: # 获取图片及其标签# 计算预测误差pred=model(x) # 网络输出。

2025-04-07 14:14:07 1141

原创第R3周：RNN-心脏病预测（pytorch版）

训练循环size=len(dataloader.dataset) # 训练集的大小num_batches=len(dataloader) # 批次数目，（size/batch_size，向上取整）train_loss,train_acc=0,0 # 初始化训练损失和正确率for x,y in dataloader: # 获取图片及其标签# 计算预测误差pred=model(x) # 网络输出。

2025-04-07 08:56:46 402 1

原创第N11周：seq2seq翻译实战-Pytorch复现

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**🏡 我的环境：本周任务：输出：1. 搭建语言类2. 文本处理函数3. 文件读取函数.startswith(eng_prefixes) 是字符串方法 startswith() 的调用。它用于检查一个字符串是否以指定的前缀开始。输出：二、Seq2Seq 模型1. 编码器（Encoder）2. 解码器（De

2025-03-31 11:54:40 994

原创 Word2vec 详解

自然语言处理（NLP）是一种涉及到处理语言文本的计算机技术。在NLP中，最小的处理单位是词语，词语是语言文本的基本组成部分。词语组成句子，句子再组成段落、篇章、文档，因此处理NLP问题的第一步是要对词语进行处理。在进行NLP问题处理时，一个常见的任务是判断一个词的词性，即动词还是名词等等。这可以通过机器学习来实现。具体地，我们可以构建一个映射函数 f(x)->y ，其中 x 是词语， y 是它们的词性。为了使用机器学习模型，需要将词语转换成数值形式。

2025-03-31 08:08:48 981

原创第N9周：seq2seq翻译实战-Pytorch复现-小白版

（1）继承EncoderRNN继承自 PyTorch 的nn.Module，这是所有神经网络模块的基类。（2）初始化方法__init__参数input_size：输入词汇表的大小（即输入单词的索引范围）。：隐藏层的维度，也是 GRU 的输出维度。成员变量：隐藏层的维度。：一个嵌入层（），将输入单词的索引转换为固定大小的密集向量。输入大小为input_size，输出大小为。self.gru：一个单向的 GRU（门控循环单元）层，用于处理序列数据。输入维度为，输出维度也为。

2025-03-24 14:13:47 1027

原创第N8周：使用Word2vec实现文本分类

model.train() # 切换为训练模式optimizer.zero_grad() # grad属性归零loss=criterion(predicted_label,label) # 计算网络输出和真实值之间的差距，label为真实值loss.backward() # 反向传播torch.nn.utils.clip_grad_norm_(model.parameters(),0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与loss。

2025-03-24 07:33:02 760

原创第N7周：调用Gensim库训练Word2Vec模型

- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**本人往期文章可查阅：了解并学习NLP基础知识中的Word2vec的相关内容。

2025-03-17 15:30:02 771

原创第N6周：中文文本分类-Pytorch实现

model.train() # 切换为训练模式optimizer.zero_grad() # grad属性归零loss=criterion(predicted_label,label) # 计算网络输出和真实值之间的差距，label为真实值loss.backward() # 反向传播torch.nn.utils.clip_grad_norm_(model.parameters(),0.1) # 梯度裁剪optimizer.step() # 每一步自动更新# 记录acc与loss。

2025-03-17 08:53:18 863

原创第N5周：Pytorch文本分类入门

这里我们定义TextClassificationModel 模型，首先对文本进行嵌入，然后对句子嵌入之后的结果进行均值聚合。vocab_size, # 词典大小embed_dim, # 词典维度sparse=False # 是否使用稀疏梯度（False为不使用）self.embedding.weight.data.uniform_(-initrange,initrange) # 初始化嵌入层的权重。

2025-03-10 12:02:21 1077

原创第N4周：NLP中的文本嵌入

此处定义了一个自定义的批处理函数，用于将数据加载到DataLoader时对文本数据进行填充（padding）和标签处理。这个函数的目的是确保每个批次中的文本数据长度一致，并将标签转换为适合模型输入的格式。: 将批次中的数据解包为文本和标签。: 计算批次中所有文本的最大长度。使用F.pad在文本的右侧填充（padding）零，使其长度与最大长度一致（max_len）。（1）F.pad: 这是 PyTorch 的函数，用于对张量进行填充。（2）text: 这里假设text。

2025-03-10 08:20:02 1134

原创第N3周：NLP中的数据集构建

除了使用中提供的数据集，我们还可以使用类来自定义自己的数据集。自定义数据集需要实现__len__和方法。__init__：用来初始化数据集__len__：方法返回数据集中样本的数量：给定索引值，返回该索引值对应的数据；它是 python built-in 方法，其主要作用是能让该类可以像list一样通过索引值对数据进行访问。return x,y在这个示例中，MyDataset类继承自类，实现了 __len__ 和方法。

2025-03-03 12:05:27 819

原创第N2周：构建词典

- **🍨 本文为[]中的学习记录博客**>- **🍖 原作者：[]**本人往期文章可查阅：.txt。

2025-03-03 07:47:47 858

原创第N1周：one-hot编码案例

- **🍨 本文为[]中的学习记录博客**>- **🍖 原作者：[]**本人往期文章可查阅：.txt。

2025-02-24 15:19:29 740

原创第G9周：ACGAN理论与实战

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**🏡 我的环境：论文地址：Conditional Image Synthesis with Auxiliary Classifier GANs ACGAN的全称是 Auxiliary Classifier Generative Adversarial Network ，翻译成汉语的意思就是带辅助分类器的GAN，ACGAN的原理与GAN（CGAN）相似。对于CGAN和ACGAN，生成

2025-02-24 08:54:22 984

原创第G7周：Semi-Supervised GAN 理论与实战

创建一个标签嵌入层，用于将条件标签映射到潜在空间# 初始化图像尺寸，用于上采样之前# 第一个全连接层，将随机噪声映射到合适的维度# 生成器的卷积块nn.Tanh(),return img# 返回每个鉴别器块的层if bn:# 鉴别器的卷积块# 下采样图像的高度和宽度# 输出层"""用于鉴别真假的输出层""""""用于鉴别类别的输出层"""

2025-02-17 11:49:43 988

原创第G6周：CycleGAN实战

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]** 🏡 我的环境：Unpaired Image-to-Image Translation CycleGAN的一个重要应用领域是Domain Adaptation（域迁移：可以通俗的理解为画风迁移），比如可以把一张普通的风景照变化成梵高画作，或者将游戏画面变化成真实世界画面，将一匹正常肤色的马转换为斑马等。 CycleGAN 由左右两个GAN 网络组成 G(AB) 负责把A

2025-02-11 10:24:00 529

原创第G5周：Pix2Pix理论与实战

在之前的练习中，我们练习了GAN可用作图像的生成，它在MNIST数据集上取得了非常好的效果。GAN的一个问题是它无法对生成模型生成的数据进行控制，为了解决这个问题，条件GAN（Conditional GAN，CGAN）提出了将在生成模型和判别模型中都加入条件信息来引导模型的训练，实现了生成内容的可控。这里要介绍的Pix2Pix是一个以CGAN为基础，用于图像翻译（Image Translation）的通用框架，旨在将一个图像域中的图像转换成另一个图像域中的图像。

2025-02-10 10:13:05 918

原创第G4周：CGAN-生成手势图像-可控制生成

>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**基础任务：条件生成对抗网络（CGAN）是在生成对抗网络（GAN）的基础上进行了一些改进。对于原始GAN的生成器而言，其生成的图像数据是随机不可预测的，因此我们无法控制网络的输出，在实际操作中的可控性不强。针对上述原始GAN无法生成具有特定属性的图像数据的问题，MdhdiMirza等人在2014年提出了条件生成对抗网络，通过原始生成对抗网络中的生成器G和判别器D增加额外

2025-01-20 15:06:56 1084

原创第G3周：CGAN-生成手势图像

>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**基础任务：进阶任务：条件生成对抗网络（CGAN）是在生成对抗网络（GAN）的基础上进行了一些改进。对于原始GAN的生成器而言，其生成的图像数据是随机不可预测的，因此我们无法控制网络的输出，在实际操作中的可控性不强。针对上述原始GAN无法生成具有特定属性的图像数据的问题，MehdiMirza等人在2014年提出来条件生成对抗网络，通过给原始生成对抗网络中的生成器G和

2025-01-20 09:04:51 897

原创第G2周：人脸图像生成（DCGAN）

图1：DCGAN结构图# 输入为z，经过一个转置卷积层# 批归一化层，用于加速收敛和稳定训练过程# ReLU激活函数# 输出尺寸：(ngf*8)x4x4# 输出尺寸：（ngf*4）x 8 x 8# 输出尺寸：（ngf*2）x 16 x 16# 输出尺寸：（ngf）x 32 x 32nn.Tanh() # Tanh激活函数#输出尺寸：3 x 64 x 64# 创建生成器# 使用"weights_init"函数对所有权重进行随机初始化。

2025-01-14 12:42:11 906

原创第G1周：生成对抗网络（GAN）入门

n_epochs：这个参数决定了模型训练的总轮数。轮数越多，模型有更多机会学习数据中的模式，但也可能导致过拟合。batch_size：批次大小影响模型每次更新时使用的数据量。较小的批次可能导致训练过程波动较大，但可能有助于模型逃离局部最小值；较大的批次则可能使训练更稳定，但需要更多的内存空间。lr：学习率控制者模型权重更新的步长。学习率过大可能导致模型在最优解附近震荡甚至发散；学习率过小则可能导致模型收敛速度缓慢或陷入局部最小值。

2025-01-14 09:01:01 1334

原创 YOLOv8白皮书-第Y9周：重要模块解读

- **🍨 本文为[]中的学习记录博客**>- **🍖 原作者：[]**本人往期文章可查阅：文件路径: …\ultralytics-main\ultralytics\nn\modules \ ***该文件夹下的文件与YOLOv5中的 common.py 是起到相同作用的，是实现YOLOv8算法中各个模块的地方，如果我们需要修改某一模块(例如C3)，那么就需要修改这个文件夹中相应文件中对应模块的的定义。这里仅仅介绍YOLOv8中涉及的主要模块，未讲解到的可查看之前YOLOv5中的介绍。

2025-01-08 18:24:32 880

原创 YOLOv8白皮书-第Y8周：yolov8.yaml文件解读

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**请根据YOLOv8n、YOLOv8s模型的结构输出，手写出YOLOv8l的模型输出。文件位置：./ultralytics/cfg/models/v8/yolov8.yaml🏡 我的环境：Parameters:nc：80 是类别数量，即模型可以识别的物体类别数。scales：包含了不同模型配置的尺度参数，分了n,s,m,l,x这5个不同大小的尺寸，参数量依次从小到大，用于调整模型的规模，

2025-01-08 14:42:41 799

原创 YOLOv8白皮书-第Y7周：训练自己的数据集

- **🍨 本文为[]中的学习记录博客**>- **🍖 原作者：[]**本人往期文章可查阅：本周任务是试着用YOLOv8训练自己的数据。（在开始本项目前，记得先跑一遍入门篇，确保环境是正常的）

2025-01-06 12:52:44 1052

原创 YOLOv5白皮书-第Y6周：模型改进

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**>- **🍖 原作者：[K同学啊]**本周任务：修改了YOLOv5s的网络结构图，请根据网络结构图以及第Y1~Y5周的内容修改对应代码，并跑通程序。原YOLOv5s的网络结构图：修改后的YOLOv5s的网络结构图：依照前面练习内容，分别进行一下几个步骤的修改：此文件位置为： ./models/common.py打开该文件后，在其中添加C2模块：添加C2模块打开yolov5s.yaml文件：从图中可以看出，模型的深度每层大约为0.3

2025-01-06 12:06:31 702

第N1周：one-hot编码案例 任务文件

第G9周：ACGAN理论与实战：acgan代码

sgan.py 源文件，可以自行修改内容

第G4周：CGAN-生成手势图像-可控制生成 生成器模型

resnet50v2-weights-tf-dim-ordering-tf-kernels.h5

空空如也

第N1周：one-hot编码案例任务文件

第G4周：CGAN-生成手势图像-可控制生成生成器模型