自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 今日学习Transfomer

(如果不使用残差,一旦其中某一个导数很小,零点几这样,多次连乘之后梯度可能越来越小,这就是常说的梯度消散,对于深层网络,传到浅层几乎就没了,梯度为0)Layer Normalization的作用是把神经网络中隐藏层归一为标准正态分布,以起到加快训练速度,加速收敛的作用。2.Positional Encoding 位置编码,在词嵌入模块后增加一个层位置编码模块,生成一个与输入词向量相同尺寸的位置编码向量,并将该位置向量直接与输入的词向量进行相加获得一个具备位置信息的词向量。这篇大佬的文章进行学习!

2024-08-14 11:38:48 252 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除