m0_67708072-CSDN博客

原创求导（前向求导和反向求导）

多次前向求导才能求得z对x1,x2,x3的导数；一次反向求导即可求得z对x1,x2,x3的导数。前向求导：一个输入对所有结点的影响。反向求导：所有结点对一个输出的影响。

2024-05-11 07:24:34 1349

原创 dropout训练阶段和测试阶段

原理：训练阶段dropout启动。在前向传播过程，dropout模块对于输入的每个数，都会以概率p将该数置0，如果该数被置0则输出0，如果该数未被置0则把该数乘上1−p1作为输出。

2024-05-11 01:06:03 864

原创 wandb

针对wandb的基本使用：wandb.log()记录一些损失等值，wandb.watch(modle)检测模型

2023-12-18 00:53:41 133

原创 VQ-VAE

VQ-VAE:1. 用于压缩编码，编码出离散隐向量（有用的表征）2. 先验分布不再固定，可学习，离散的均匀分布。不像VAE中，先验分布是一个标准的高斯分布。3. 避免后验坍塌，即输入任意隐变量解码器输出都一样。

2023-12-16 19:25:38 82

原创 import logging

logging利用basicConfig的基础使用，以及利用logger,handler,Formatter和filter来控制输出日志信息到控制台与文件。

2023-11-28 01:01:42 59

原创插值上采样+普通卷积

上采样通常有两种方式：一种是插值；一种是转置卷积，即利用深度学习让神经网络学习参数。本文给出了最近邻插值+卷积的代码实现。介绍了转置卷积存在的不足：棋盘效应

2023-11-19 04:19:40 69

原创关于用None拓展维度

pytorch当中，如果是两个维度不同的1维张量，没办法做广播运算。但是如果把一维张量增加一个维度，变成二维张量，就可以做广播运算了。如何增加维度呢？这时就需要利用None。

2023-11-14 12:24:45 68 1

原创优化算法（梯度下降，Adam）

优化算法：梯度下降算法和Adam算法

2023-10-23 13:03:52 67

原创 Transformer

Transformer是一个纯使用注意力机制的编码器-解码器。编码器和解码器都有n个transformer块。每个块内：有基于位置的前馈网络FFN全连接层（1x1卷积），多头注意力，有自注意力也有一般的attention，残差连接让网络更深，层归一化，位置编码。

2023-04-02 03:07:11 115

原创自注意力和位置编码

自注意力self-attention和一般attention区别仅在于：自注意力的“自”，就是key,value,query都来自自己。自注意力适合处理很长的序列，因为最长路径O(1)（站在某个节点上，走1步到达的节点，站在这个节点上，就可以看到很宽的序列/可以得到很宽的序列的信息。任何输出可以看到整个序列信息），但计算量大。自注意力没有记录位置信息，将位置编码注入输入。

2023-04-01 21:57:55 201

原创注意力机制

注意力机制，参数化和非参数化注意力池化层，注意力权重，注意力分数的计算，将attention应用于seq2seq.

2023-04-01 16:21:39 122

原创束搜索 beam search

束搜索在每次搜索时保存k个最好的候选，一般k取5/10。k=1为贪心搜索。

2023-03-31 19:55:34 140

原创深度RNN和双向RNN

深度循环神经网络使用更多隐藏层来获得更多的非线性，这点同样可以迁移到GRU和LSTM上。双向循环神经网络可以利用反向的时间信息；通常用于对序列做特征抽取，填空，而不是预测未来。

2023-03-30 21:12:07 241

原创一些经典的卷积神经网络

LeNet, AlexNet, VGG, NiN, GoogLeNet, Resnet简单介绍

2023-03-30 20:14:26 84

原创批量归一化 BN层

一般来讲，梯度会是比较小的数值，反向传播到越底层，梯度越小，这就导致了一个问题：顶层梯度大些，收敛快，底层梯度小，迭代收敛慢。当上层收敛快时，下层收敛慢，下层一有一点改变，上层就白训练了。需要批量归一化去解决这个问题。

2023-03-30 00:33:26 98

原创 GRU和LSTM

GRU是在LSTM后提出的，效果上GRU和LSTM差不多，用谁都差不多。两网络本质都是在权衡要不要忘记过去的状态，尽量去看现在的输入数据。GRU和LSTM就是在隐状态的计算上和RNN不同，其他都一样，所以下文重点关注和RNN的不同之处，即Ht的计算上。

2023-03-28 21:38:01 406

原创循环神经网络 RNN

RNN定义；语言模型衡量标准——平均交叉熵，困惑度；RNN需要梯度裁剪

2023-03-28 20:35:12 175

原创语言模型 Language Model

语言模型是NLP当中的经典模型。给定文本序列，x1可能是词也可能是字符。语言模型的目标是估计联合概率，即估计整个文本出现的概率。

2023-03-27 17:17:10 177

原创序列模型（马尔可夫，潜变量）

序列数据：有时序结构的数据，当前数据和之前观察到的数据相关。如：音乐，文本，语言都是连续的。序列模型：马尔科夫假设；潜变量模型。

2023-03-27 15:43:36 390

原创池化层（类型+超参数）

二维最大池化：返回滑动窗口中的最大值，提取每个窗口中最强的模式信号。平均池化层：因为平均了，比较柔和。池化中三个超参数：窗口大小，padding, stride。没有需要学习的参数。总结：池化类型2种。池化可以改善卷积对于位置的敏感性。通常池化层在卷积层之后。

2023-03-26 19:43:46 847

原创卷积概念和几个超参数

卷积两个关键：权重共享/平移不变性，局部性。几个相关超参数：kernel_size,stride,padding,out_channels.

2023-03-25 23:02:15 279

梯度消失的问题：1梯度值变成0，对float16尤为严重 2 一旦梯度消失，不管如何调整学习率都无法更新权重，训练无进展 3可能造成顶层训练好，底层（更深层）由于梯度的消失而训练不好。想要实现合理的权重初始和激活函数，一个想法是将每层的输出和梯度看作随机变量，让各层输出的均值和方差保持一致，让各层梯度的均值和方差也一样。梯度爆炸的问题：1值超出值域，特别是对于float16尤为严重 2对学习率敏感，可能需要在训练过程不断调整学习率，一开始学习率可以大一些，后面学习率小一点。是第t层权重的方差，

2023-03-25 17:41:57 162

原创神经网络权重w不能初始化为同一个常数

神经网络每一层的权重w初始化时，不可以初始化为同一个常数。

2023-03-20 00:11:20 222

m0_67708072的博客