![](https://i-blog.csdnimg.cn/direct/502f55e332b24adabc53c7ff8462be58.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
LLM
文章平均质量分 95
LLM模型相关论文、项目学习笔记
小老弟来喽
佛系科研,随便整点
展开
-
《Attention Is All You Need》论文学习
记录了学习论文《Attention is all you need》的主要过程,重点对transformer模型架构进行解读原创 2024-07-22 23:02:20 · 305 阅读 · 0 评论 -
《tensor2tensor》源码解读
为Transformer模型的编码器准备输入和自注意力偏置,考虑了因果性、填充、位置编码、目标空间嵌入和类型嵌入等多种因素,确保编码器在训练和推理时能够正确处理输入数据。函数实现了一种饱和的 sigmoid 函数,其公式为:𝑦=min(1.0,max(0.0,1.2⋅𝜎(𝑥)−0.1)),其中,𝜎(𝑥) 是标准的 sigmoid 函数。将自注意力偏置和编码器-解码器注意力偏置转换为与编码器输入相同的数据类型,并返回编码器输入、自注意力偏置和编码器-解码器注意力偏置。,它是查询深度的平方根的倒数。原创 2024-07-23 22:03:39 · 748 阅读 · 0 评论