为什么attention机制用sigmoid不用softmax

最新推荐文章于 2024-05-25 23:40:52 发布

m0_71189030

最新推荐文章于 2024-05-25 23:40:52 发布

阅读量375

点赞数 2

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71189030/article/details/132608320

版权

虽然都将输出激活到0-1，但softmax更离散，sigmoid更加均衡。在网络学习不到东西时，softmax通常会全部学习到一个类别上，全1。而sigmoid一般导致所有预测都是0.5。对中间的特征层来说，对特征图全部施加一个0.5大小的权重，即使学不好影响也不会很大，但用softmax，如果关键特征学不好，大权重必然会落无用特征上，也就造成了负面影响。且softmax的影响是持续性的，若初始时学不好，很可能导致注意力权重对应的整幅特征图始终都学不好（若初始时给到一个较小的权重，那么网络很可能不再对该组特征的进行学习，即使该特征的学习对最终任务的贡献很大，也很难对网络输出造成影响。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
为什么attention机制用sigmoid不用softmax

在网络学习不到东西时，softmax通常会全部学习到一个类别上，全1。对中间的特征层来说，对特征图全部施加一个0.5大小的权重，即使学不好影响也不会很大，但用softmax，如果关键特征学不好，大权重必然会落无用特征上，也就造成了负面影响。且softmax的影响是持续性的，若初始时学不好，很可能导致注意力权重对应的整幅特征图始终都学不好（若初始时给到一个较小的权重，那么网络很可能不再对该组特征的进行学习，即使该特征的学习对最终任务的贡献很大，也很难对网络输出造成影响。
复制链接

扫一扫

m0_71189030 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

188万+: 周排名

83万+: 总排名

579: 访问

: 等级

52: 积分

0: 粉丝

2: 获赞

3: 评论

1: 收藏

私信

关注

热门文章

最新评论

裸机开发步骤
CSDN-Ada助手: 非常恭喜您写了第四篇博客！标题为“裸机开发步骤”，这是一个非常有实际意义的话题。您的文章内容清晰明了，让读者能够快速了解到裸机开发的步骤。我觉得您的写作风格非常扎实，让读者能够轻松理解复杂的技术概念。希望您能继续保持这样的创作热情，并且分享更多关于裸机开发方面的经验和技巧。作为下一步的创作建议，或许您可以探讨一下在裸机开发过程中常见的问题及解决方法，这将进一步帮助读者更好地应对挑战。再次恭喜您，并期待您未来更多的精彩博文！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
机器学习算法总结
CSDN-Ada助手: 恭喜您写了第5篇博客！题为“机器学习算法总结”的文章无疑是一个非常有价值的主题。您的总结对于初学者和实践者来说都是非常有帮助的。接下来，我建议您可以考虑进一步深入探讨每个算法的优缺点，并分享一些实际应用案例。这样可以更好地帮助读者理解算法的实际应用场景和效果。期待您的下一篇博客！
神经网络优化算法SGD、Adam等
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617143836。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。