用狄拉克函数来构造非光滑函数的光滑近似

本文介绍了如何使用狄拉克函数来构造非光滑函数的光滑近似,这一方法适用于有可数个间断点的函数。通过狄拉克函数的光滑近似,可以为优化过程提供连续的梯度,例如在机器学习中用于光滑化ReLU激活函数和其他不连续函数。文中还展示了如何推导ReLU和取整函数的几种光滑近似形式。
摘要由CSDN通过智能技术生成

bc5d1d913cab761b832a8df9034c2036.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在机器学习中,我们经常会碰到不光滑的函数,但我们的优化方法通常是基于梯度的,这意味着光滑的模型可能更利于优化(梯度是连续的),所以就有了寻找非光滑函数的光滑近似的需求。事实上,本博客已经多次讨论过相关主题,比如《寻求一个光滑的最大值函数》[1]、《函数光滑化杂谈:不可导函数的可导逼近》[2] 等,但以往的讨论在方法上并没有什么通用性。

不过,笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》[3] 学习到了一种比较通用的思路:用狄拉克函数来构造光滑近似。通用到什么程度呢?理论上有可数个间断点的函数都可以用它来构造光滑近似!个人感觉还是非常有意思的。

372178da3fd4495b93cb2c653c5fe1f2.png

狄拉克函数

在很早之前的文章《诡异的 Dirac 函数》[4] 中,我们就介绍过狄拉克函数了。在现代数学中,狄拉克函数被定义为一个“泛函”而不是“函数”,但对于大多数读者来说,将它当作函数来理解是比较容易接受的。

简单来说,狄拉克函数 满足:

1、;

2、;

3、。

直观来看, 可以看成一个连续型的概率密度函数,采样空间为全体实数 ,但是只有 处概率非零,也即均值为 0、方差也为 0,所以从中采样必然只能采样到 0,因此成立如下恒等式:

44f1c9ccdf81f897ef42e7134cd9e540.png

或者:

d96667dd6c9e11381b200a69ce685f55.png

这可谓是狄拉克函数最重要的性质,也是我们后面主要用到的恒等式。

0f2d03382bed109f4e93751c5569f4b0.png

光滑近似

如果我们能找到 的一个光滑近似 ,那么根据(2),我们就有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值