跟李沐学AI
文章平均质量分 63
m0_67708072
这个作者很懒,什么都没留下…
展开
-
优化算法(梯度下降,Adam)
优化算法:梯度下降算法和Adam算法原创 2023-10-23 13:03:52 · 62 阅读 · 0 评论 -
Transformer
Transformer是一个纯使用注意力机制的编码器-解码器。编码器和解码器都有n个transformer块。每个块内:有基于位置的前馈网络FFN全连接层(1x1卷积),多头注意力,有自注意力也有一般的attention,残差连接让网络更深,层归一化,位置编码。原创 2023-04-02 03:07:11 · 111 阅读 · 0 评论 -
自注意力和位置编码
自注意力self-attention和一般attention区别仅在于:自注意力的“自”,就是key,value,query都来自 自己。自注意力适合处理很长的序列,因为最长路径O(1)(站在某个节点上,走1步到达的节点,站在这个节点上,就可以看到很宽的序列/可以得到很宽的序列的信息。任何输出可以看到整个序列信息),但计算量大。自注意力没有记录位置信息,将位置编码注入输入。原创 2023-04-01 21:57:55 · 201 阅读 · 0 评论 -
注意力机制
注意力机制,参数化和非参数化注意力池化层,注意力权重,注意力分数的计算,将attention应用于seq2seq.原创 2023-04-01 16:21:39 · 121 阅读 · 0 评论 -
束搜索 beam search
束搜索在每次搜索时保存k个最好的候选,一般k取5/10。k=1为贪心搜索。原创 2023-03-31 19:55:34 · 134 阅读 · 0 评论 -
深度RNN和双向RNN
深度循环神经网络使用更多隐藏层来获得更多的非线性,这点同样可以迁移到GRU和LSTM上。双向循环神经网络可以利用反向的时间信息;通常用于对序列做特征抽取,填空,而不是预测未来。原创 2023-03-30 21:12:07 · 230 阅读 · 0 评论 -
批量归一化 BN层
一般来讲,梯度会是比较小的数值,反向传播到越底层,梯度越小,这就导致了一个问题:顶层梯度大些,收敛快,底层梯度小,迭代收敛慢。当上层收敛快时,下层收敛慢,下层一有一点改变,上层就白训练了。需要批量归一化去解决这个问题。原创 2023-03-30 00:33:26 · 97 阅读 · 0 评论 -
GRU和LSTM
GRU是在LSTM后提出的,效果上GRU和LSTM差不多,用谁都差不多。两网络本质都是在权衡要不要忘记过去的状态,尽量去看现在的输入数据。GRU和LSTM就是在隐状态的计算上和RNN不同,其他都一样,所以下文重点关注和RNN的不同之处,即Ht的计算上。原创 2023-03-28 21:38:01 · 400 阅读 · 0 评论 -
循环神经网络 RNN
RNN定义;语言模型衡量标准——平均交叉熵,困惑度;RNN需要梯度裁剪原创 2023-03-28 20:35:12 · 174 阅读 · 0 评论 -
语言模型 Language Model
语言模型是NLP当中的经典模型。给定文本序列,x1可能是词也可能是字符。语言模型的目标是估计联合概率,即估计整个文本出现的概率。原创 2023-03-27 17:17:10 · 174 阅读 · 0 评论 -
序列模型(马尔可夫,潜变量)
序列数据:有时序结构的数据,当前数据和之前观察到的数据相关。如:音乐,文本,语言都是连续的。序列模型:马尔科夫假设;潜变量模型。原创 2023-03-27 15:43:36 · 379 阅读 · 0 评论 -
一些经典的卷积神经网络
LeNet, AlexNet, VGG, NiN, GoogLeNet, Resnet简单介绍原创 2023-03-30 20:14:26 · 81 阅读 · 0 评论 -
池化层(类型+超参数)
二维最大池化:返回滑动窗口中的最大值,提取每个窗口中最强的模式信号。平均池化层:因为平均了,比较柔和。池化中三个超参数:窗口大小,padding, stride。没有需要学习的参数。总结:池化类型2种。池化可以改善卷积对于位置的敏感性。通常池化层在卷积层之后。原创 2023-03-26 19:43:46 · 839 阅读 · 0 评论 -
卷积概念和几个超参数
卷积两个关键:权重共享/平移不变性,局部性。几个相关超参数:kernel_size,stride,padding,out_channels.原创 2023-03-25 23:02:15 · 270 阅读 · 0 评论 -
数值稳定性(梯度消失,梯度爆炸)
梯度消失的问题:1梯度值变成0,对float16尤为严重 2 一旦梯度消失,不管如何调整学习率都无法更新权重,训练无进展 3可能造成顶层训练好,底层(更深层)由于梯度的消失而训练不好。想要实现合理的权重初始和激活函数,一个想法是将每层的输出和梯度看作随机变量,让各层输出的均值和方差保持一致,让各层梯度的均值和方差也一样。梯度爆炸的问题:1值超出值域,特别是对于float16尤为严重 2对学习率敏感,可能需要在训练过程不断调整学习率,一开始学习率可以大一些,后面学习率小一点。是第t层权重的方差,原创 2023-03-25 17:41:57 · 158 阅读 · 0 评论