概率分布的熵归一化（Entropy Normalization）

最新推荐文章于 2023-12-22 15:59:04 发布

PaperWeekly

最新推荐文章于 2023-12-22 15:59:04 发布

阅读量3.1k

点赞数

文章标签：人工智能深度学习机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/122295005

版权

本文探讨了如何通过对概率分布进行幂次变换实现熵的归一化，以达到控制熵值的目的。作者提出了熵归一化方法，并通过迭代求解算法找到使熵等于指定值的变换参数。熵归一化可以用于控制预测结果的稀疏性，缓解梯度消失问题，以及在自回归模型的随机采样中替代top-k采样策略。然而，如何确定最佳的熵值仍然是一个挑战。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在上一篇文章《从熵不变性看 Attention 的 Scale 操作》中，我们从熵不变性的角度推导了一个新的 Attention Scale，并且实验显示具有熵不变性的新 Scale 确实能使得 Attention 的外推性能更好。这时候笔者就有一个很自然的疑问：

有没有类似 L2 Normalization 之类的操作，可以直接对概率分布进行变换，使得保持原始分布主要特性的同时，让它的熵为指定值？

笔者带着疑问搜索了一番，发现没有类似的研究，于是自己尝试推导了一下，算是得到了一个基本满意的结果，暂称为“熵归一化（Entropy Normalization）”，记录在此，供有需要的读者参考。

幂次变换

首先，假设元分布，它的熵定义为：

由于，所以，因此，当某个为 1、其余为 0 时（one hot），取得最小值 0；此外，也可以证明当所有等于时，取得最大值，所以的取值范围是。

所以，我们首先要找一种分布的变换，它能够保持分布的主要信息，并且有能力将分布的熵从 0 到进行变换。这里选择的是幂次变换：

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
概率分布的熵归一化（Entropy Normalization）

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 追一科技研究方向 | NLP、神经网络在上一篇文章《从熵不变性看 Attention 的 Scale 操作》中，我们从熵不变性...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。