![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP学习
地大停车第二帅
啥也不会
展开
-
NLP复习3,手撕多头attention
【代码】NLP复习3,手撕多头attention。原创 2024-03-19 20:23:06 · 263 阅读 · 0 评论 -
NLP复习(二)
adam优化器:主要参数,β1,β2,α。α是学习率,不用解释。β1和β2两个参数是控制两个计算项比例的。可以看到β1作为t-1步变量的系数,1-β1作为t步变量的系数。β1越大,t-1步变量做出贡献越大,也就是优化器调整学习率时候更注重历史信息。β2同理。也就是这两个系数越大,调整学习率时候越注意历史信息。适用于不稳定的目标函数。原创 2024-03-10 22:56:53 · 194 阅读 · 0 评论 -
NLP复习(一)
Relu激活函数:|原创 2024-03-07 22:54:16 · 233 阅读 · 0 评论