NLP基础知识
文章平均质量分 71
WHY-233
这个作者很懒,什么都没留下…
展开
-
大模型相关代码5 -- 基础激活函数【手撕基础代码】
一种基于高斯分布的激活函数,用在GPT3中。是针对relu在0点不可导的问题设计的,可以比relu提供更高性能。公式中的erf代表高斯分布Gauss Error。结合Swish和GLU,对输入的X进行W1 W2两次线性变换,将其中的一个结果输入Swish后两元素相乘。swish是一种或平滑连续的激活函数,在Transformer中应用广泛。通过门来控制信息的流动,选择性的传递信息。原创 2024-07-01 18:07:14 · 272 阅读 · 0 评论 -
大模型相关代码4 -- 基础激活函数【手撕基础代码】
它保留了 step 函数的生物学启发(只有输入超出阈值时神经元才激活),不过当输入为正的时候,导数不为零,从而允许基于梯度的学习(尽管在 x=0 的时候,导数是未定义的)。其输出不是以0为中心而是都大于0的(这会降低权重更新的效率),这样下一层的神经元会得到上一层输出的全正信号作为输入,所以Sigmoid激活函数不适合放在神经网络的前面层而一般是放在最后的输出层中使用。在一般的二元分类问题中,tanh 函数用于隐藏层,而 sigmoid 函数用于输出层,但这并不是固定的,需要根据特定问题进行调整。原创 2024-07-01 16:37:07 · 690 阅读 · 0 评论 -
大模型相关代码1 -- 注意力机制【手撕基础模型】
【代码】大模型相关代码1 -- 注意力机制【手撕基础模型】原创 2024-06-27 22:39:27 · 463 阅读 · 0 评论 -
NLP基础知识1【BERT】
NLP基础知识1【BERT】BERT之前的语言编码one-hot的问题word2vec存在的问题elmo存在的问题BERT未完待续总结整理BERT和BERT以前预训练模型的知识BERT之前的语言编码one-hot的问题维度灾难:由于将文本按01进行编码,维度过高,会遇到维度灾难的困扰,妹子词语的维度是语料库词典的长度。向量离散、稀疏问题:因为one-hot中,句子向量中,如果词出现为1,没出现为0,但是由于维度远远大于句子长度,所以句子中的1远小于0。词语的编码是随机的,不能表示词之间的联原创 2024-06-27 19:08:21 · 230 阅读 · 0 评论