用狄拉克函数来构造非光滑函数的光滑近似

PaperWeekly

于 2021-10-23 17:40:02 发布

阅读量1.2k

点赞数 1

文章标签：人工智能机器学习 css 微软 webgl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/120928458

版权

本文介绍了如何使用狄拉克函数来构造非光滑函数的光滑近似，这一方法适用于有可数个间断点的函数。通过狄拉克函数的光滑近似，可以为优化过程提供连续的梯度，例如在机器学习中用于光滑化ReLU激活函数和其他不连续函数。文中还展示了如何推导ReLU和取整函数的几种光滑近似形式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

在机器学习中，我们经常会碰到不光滑的函数，但我们的优化方法通常是基于梯度的，这意味着光滑的模型可能更利于优化（梯度是连续的），所以就有了寻找非光滑函数的光滑近似的需求。事实上，本博客已经多次讨论过相关主题，比如《寻求一个光滑的最大值函数》[1]、《函数光滑化杂谈：不可导函数的可导逼近》[2] 等，但以往的讨论在方法上并没有什么通用性。

不过，笔者从最近的一篇论文《SAU: Smooth activation function using convolution with approximate identities》[3] 学习到了一种比较通用的思路：用狄拉克函数来构造光滑近似。通用到什么程度呢？理论上有可数个间断点的函数都可以用它来构造光滑近似！个人感觉还是非常有意思的。

狄拉克函数

在很早之前的文章《诡异的 Dirac 函数》[4] 中，我们就介绍过狄拉克函数了。在现代数学中，狄拉克函数被定义为一个“泛函”而不是“函数”，但对于大多数读者来说，将它当作函数来理解是比较容易接受的。

简单来说，狄拉克函数满足：

1、；

2、；

3、。

直观来看，可以看成一个连续型的概率密度函数，采样空间为全体实数，但是只有处概率非零，也即均值为 0、方差也为 0，所以从中采样必然只能采样到 0，因此成立如下恒等式：

或者：

这可谓是狄拉克函数最重要的性质，也是我们后面主要用到的恒等式。

光滑近似

如果我们能找到的一个光滑近似，那么根据（2），我们就有

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。