![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
DocVision
这个作者很懒,什么都没留下…
展开
-
Micro-F1和Macro-F1详解--转载自“Troye Jcan”
https://blog.csdn.net/qq_43190189/article/details/105778058?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522164517755116781683936008%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=164517755116781683936008&am转载 2022-02-18 20:09:08 · 232 阅读 · 0 评论 -
transformer中的attention为什么scaled?--转载自 知乎“TniL”
原作者的答案在知乎,由于答案中有大量公式计算符号,无法较好的迁移至CSDN。因此选择了粘贴图片的方式进行转载,这种方式可能会为大家的阅读增添不便,希望您能理解。同时如有需要,非常建议大家点击超链接,到知乎中查看原作者的回答,同时也能方便您将自己的疑问或见解评论给原作者,从而更方便地进行后续交流。文章目录1. 为什么比较大的输入会使得softmax的梯度变得很小?2. 维度与点积大小的关系是怎么样的,为什么使用维度的根号来放缩?1. 为什么比较大的输入会使得softmax的梯度变得很小?from ma转载 2021-12-02 21:15:18 · 150 阅读 · 0 评论 -
1分钟理解softmax函数,简单粗暴--转载自 “ -永不妥协-”
softmax:先通过分子计算,将各个数值的差距拉开(通过执行以e为底数,x为指数的运算,x值越小,得出的结果越接近0–因为此时为e的负指数;x越大,则得出的结果值越大)。再通过分母进行归一化(将步骤1中得到的所有数值的和作为分母,分别除以1中得到的各个数值,便可以将1中各个数值压缩至[0,1],且步骤2所得出的所有结果的数值和恒为1)。做过多分类任务的同学一定都知道softmax函数。softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率转载 2021-12-02 20:41:53 · 1083 阅读 · 0 评论