- 博客(2)
- 收藏
- 关注
原创 算法八股面试——Transformer
自注意力是位置无关的,无论句子的顺序是什么样的,通过自注意力计算的token的hidden embedding都是一样的,这不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息。Transformer使用了固定的位置编码来表示token在句子中的绝对位置信息。Transformer使用正弦函数和余弦函数来生成不同维度的位置信息。给定位置pos和embedding维度i,位置编码:意义:引入顺序信息相对距离信息易于计算优点:无需额外学习保持相对位置信息轻量化。
2024-09-09 16:52:10 872
原创 激活函数(ReLU,Sigmoid,tanh)
激活函数就是在神经网络上运行的函数,负责将神经元的输入映射到输出端。本文主要介绍一些常用的激活函数。
2023-08-11 11:28:05 286 1
Python生成整数稀疏矩阵
2023-08-31
TA创建的收藏夹 TA关注的收藏夹
TA关注的人