概率分布的熵归一化(Entropy Normalization)

本文探讨了如何通过对概率分布进行幂次变换实现熵的归一化,以达到控制熵值的目的。作者提出了熵归一化方法,并通过迭代求解算法找到使熵等于指定值的变换参数。熵归一化可以用于控制预测结果的稀疏性,缓解梯度消失问题,以及在自回归模型的随机采样中替代top-k采样策略。然而,如何确定最佳的熵值仍然是一个挑战。
摘要由CSDN通过智能技术生成

e6d2249a2299a4befa437a2143c7da53.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在上一篇文章《从熵不变性看 Attention 的 Scale 操作》中,我们从熵不变性的角度推导了一个新的 Attention Scale,并且实验显示具有熵不变性的新 Scale 确实能使得 Attention 的外推性能更好。这时候笔者就有一个很自然的疑问:

有没有类似 L2 Normalization 之类的操作,可以直接对概率分布进行变换,使得保持原始分布主要特性的同时,让它的熵为指定值?

笔者带着疑问搜索了一番,发现没有类似的研究,于是自己尝试推导了一下,算是得到了一个基本满意的结果,暂称为“熵归一化(Entropy Normalization)”,记录在此,供有需要的读者参考。

f3bb9d9b363a6313380d4706a99175bd.png

幂次变换

首先,假设 元分布 ,它的熵定义为:

54028b426347ea95f2bd992e895662f8.png

由于 ,所以 ,因此 ,当某个 为 1、其余 为 0 时(one hot),取得最小值 0;此外,也可以证明当所有 等于 时, 取得最大值 ,所以 的取值范围是 。

所以,我们首先要找一种分布的变换,它能够保持分布的主要信息,并且有能力将分布的熵从 0 到 进行变换。这里选择的是幂次变换:

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值