![a6779cf68e8aff61ce497976a81620c7.png](https://i-blog.csdnimg.cn/blog_migrate/d422569b7c7177340a5badca29edbe43.jpeg)
在机器学习中,常碰见的一个函数就是softmax,形式如下
![04e9e011f7034b78db03313bbf931049.png](https://i-blog.csdnimg.cn/blog_migrate/003f0c88319606339c26b314d8914a7f.jpeg)
这个周末参加WPC,遇见一道注意力机制的偏机器学习题目。很感兴趣,但最终还是没做出来,后面才知道是考数值溢出的,原题如下
![7baf058d179e2872617cdf04d1e318e0.png](https://i-blog.csdnimg.cn/blog_migrate/df3889e40e8b29c0fd11c2c9b0400d3d.jpeg)
这里的α_ts是h对输入特征x1,x2,...,xn的softmax响应函数,即对每个x给予多少“注意力”。直观理解为——如果h对d维中某个维度更“关注”,而x在这个维度的表现也很强,那么分配到的注意力就更高,这里通过
在机器学习中,常碰见的一个函数就是softmax,形式如下
这个周末参加WPC,遇见一道注意力机制的偏机器学习题目。很感兴趣,但最终还是没做出来,后面才知道是考数值溢出的,原题如下
这里的α_ts是h对输入特征x1,x2,...,xn的softmax响应函数,即对每个x给予多少“注意力”。直观理解为——如果h对d维中某个维度更“关注”,而x在这个维度的表现也很强,那么分配到的注意力就更高,这里通过