大模型常见算子定义

本文将汇总大模型常用的算子定义,方便快速根据定义公式评估其计算量。

LayerNorm

 这是在BERT、GPT等模型中广泛使用的LayerNorm:

RMSNorm

RMSNorm(root mean square)发现LayerNorm的中心偏移没什么用(减去均值等操作)。将其去掉之后,效果几乎不变,但是速度提升了40%。最终公式为:

注意除了没有减均值,加偏置以外,分母上求的RMS而不是方差

SwiGLU/SiLU

LLaMA没有使用ReLU,而是使用了

TensorFlow 是一个流行的开源深度学习框架,提供了各种算子(operator)来支持各种机器学习和神经网络任务。下面是一些常见的 TensorFlow 算子: 1. tf.constant:创建一个常量张量。可以指定张量的形状和数值。 2. tf.Variable:创建一个可变的张量。与常量不同,变量的值可以在计算过程中被修改。 3. tf.placeholder:创建一个占位符,用于传递输入的数据。在实际运行时,需要通过 feed_dict 参数来提供具体的输入。 4. tf.add:对两个张量进行加法运算。 5. tf.multiply:对两个张量进行乘法运算。 6. tf.matmul:计算两个矩阵的乘积。 7. tf.reduce_sum:对张量中的元素求和。 8. tf.reduce_mean:对张量中的元素求平均值。 9. tf.argmax:返回张量中最大值的索引。 10. tf.nn.softmax:计算张量的 softmax 函数值,常用于多分类问题。 11. tf.nn.relu:计算张量的 ReLU 函数值,常用于激活神经网络的隐藏层。 12. tf.nn.dropout:对张量中的元素进行随机失活,用于防止模型过拟合。 13. tf.nn.conv2d:进行二维卷积操作,适用于图像处理任务。 14. tf.nn.rnn_cell.BasicRNNCell:定义一个基本的 RNN 单元。 15. tf.train.AdamOptimizer:使用 Adam 优化算法来调整模型参数。 以上只是 TensorFlow 中一部分常见算子的简要介绍,实际在使用时还有很多其他的算子可以选择,根据具体的任务和需求进行选择和使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Briwisdom

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值