大语言模型
文章平均质量分 97
Ace_bb
这个作者很懒,什么都没留下…
展开
-
细嗦Transformer(二): Attention及FFN等细节部分解读和代码实现
因此,padding部分是不带有任何语义,也不需要参与注意力计算的,所以需要在计算注意力的得分之前,将padding部分mask掉,通常是将padding位置的得分设为一个非常大的负数,通过softmax后,这些位置的权重接近于0,从而不影响实际有效的token序列。在Embedding的时候,一个token是embbeding成维的向量,如果输入的token长度为4096,一个token embedding成,那么输入层Embedding之后的维度为维,是一个矩阵。的维度不一定与的维度相同。原创 2024-10-14 10:03:50 · 1009 阅读 · 0 评论 -
细嗦Transformer(一): 整体架构及代码实现
所以更适合处理摘要生成,翻译等任务。解码器最后的输出需要经过全连接层,将最后一个DecoderLayer的输出映射成词表大小的向量,再经过Softmax得到词表中每个词的预测概率,概率最大的即为预测的词。Generator就是最后的模型输出部分,是最后的输出部分,经过一个标准线性变化,输入维度为,输入维度为 ,再经过Softmax,得到词表中每个词的概率。这里将子层也单独抽象成一个类表示,因为不管是EncoderLayer、还是DecoderLayer的子层,都需要经过残差连接和层归一化,是可以复用的。原创 2024-10-14 09:36:21 · 1023 阅读 · 0 评论 -
图解Self-Attention和代码实现,大语言模型基础思维导图
自注意力机制(Self-Attention)虽然强大,但在实际应用中也存在一些问题,以下是一些主要问题以及相应的解决方案:1.原创 2024-09-16 16:40:01 · 1235 阅读 · 0 评论