Intrinsic Plasticity 公式推导

最新推荐文章于 2024-09-25 23:28:06 发布

颹蕭蕭

最新推荐文章于 2024-09-25 23:28:06 发布

阅读量964

点赞数 3

分类专栏： # 机器学习文章标签： IP 储备池 reservoir plasticity 神经网络

我们不生产知识，我们只是互联网的搬运工

本文链接：https://blog.csdn.net/itnerd/article/details/109179566

版权

机器学习专栏收录该内容

136 篇文章 17 订阅

订阅专栏

在这里插入图片描述

本文地址：https://goodgoodstudy.blog.csdn.net/article/details/109179566

预备知识

概率分布的变换，
$f_y(y) \partial y = f_x(x) \partial x$
或者
$f_y(y) = f_x(x)\frac{\partial x}{\partial y} \tag{1}$
参考证明
DL散度，衡量两个分布之间的差异
$DL(p_1\| p_2) = \int p_1(y) \log \left(\frac{p_1(y)}{p_2(y)}\right) dy$

IP

问题描述

假设神经元的输出方程为：
$y = g (x)$
其中 $x$ 为到达该神经元的所有信号的总和，并且服从分布 $\sim f_x(x)$ 。 $g(\cdot)$ 为非线性激活函数，如 Sigmoid 函数，单调递增，由(1)式得：
$\sim f_y(y)= f_x(x)\frac{\partial x}{\partial y}$

现在，我们希望神经元的输出 $y$ 能够服从某一特定的分布 $f_{exp}$ ，如
指数分布：
$f_{exp} = \frac{1}{\mu} \exp\left(-\frac{y}{\mu}\right)$
高斯分布:
$f_{exp} = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(y-\mu)^2}{\sigma^2}\right)$

梯度下降法

将神经元的输出方程改为：
$y = g (a x + b)$
通过调整 $a$ 和 $b$ 的值，使得输出 $y$ 的分布服从指定分布

构造损失函数：
$\begin{aligned} DL(f_y || f_{exp}) &= \int f_y \log\left(\frac{f_y}{f_{exp}}\right) dy \\\\ &= E_y[\log(f_y)-\log(f_{exp})] \\\\ &= E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \end{aligned}$
通过优化这个损失函数可以使得 $f_y$ 接近 $f_{exp}$

计算梯度

以 $\displaystyle{f_{exp} = \frac{1}{\mu} \exp\left(-\frac{y}{\mu}\right)}$ 为例

假设激活函数为 Sigmoid 函数， $\displaystyle{g(x) = \frac{1}{1-\exp(-x)}}$ ，则
$\frac{1}{1-\exp(-ax-b)}$
则
$\frac{\partial y}{\partial x} = ay(1-y) \tag{2}$ $\frac{\partial y}{\partial a} = xy(1-y) \tag{3}$ $\frac{\partial y}{\partial b} = y(1-y) \tag{4}$

参数 $a$ 的梯度
$\begin{aligned} \frac{\partial}{\partial a} DL(f_y || f_{exp}) &= \frac{\partial}{\partial a}E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \\\\ &=E_y\left[0-\frac{\partial}{\partial a}(\log a + \log y + \log(1-y) ) - \frac{\partial}{\partial a}(-\log \mu - \frac{y}{\mu}) \right] \\\\ &= -\frac{1}{a} - E_y \left[\frac{1}{y} \frac{\partial y}{ \partial a} - \frac{1}{1-y} \frac{\partial y}{ \partial a} + \frac{1}{\mu} \frac{\partial y}{ \partial a}\right] \\\\ &= -\frac{1}{a} - E_y \left[\left(\frac{1}{y} - \frac{1}{1-y} + \frac{1}{\mu} \right)\frac{\partial y}{ \partial a}\right] \\\\ &= -\frac{1}{a} - E_y \left[x\left(1-2y+\frac{1}{\mu}y(1-y)\right)\right] \end{aligned}$
参数 $b$ 的梯度
$\begin{aligned} \frac{\partial}{\partial b} DL(f_y || f_{exp}) &= \frac{\partial}{\partial b}E_y\left[\log(f_x) - \log\left(\frac{\partial y}{\partial x}\right)-\log(f_{exp})\right] \\\\ &=E_y\left[0-\frac{\partial}{\partial b}(\log a + \log y + \log(1-y) ) - \frac{\partial}{\partial b}(-\log \mu - \frac{y}{\mu}) \right] \\\\ &= - E_y \left[\frac{1}{y} \frac{\partial y}{ \partial b} - \frac{1}{1-y} \frac{\partial y}{ \partial b} + \frac{1}{\mu} \frac{\partial y}{ \partial b}\right] \\\\ &= - E_y \left[\left(\frac{1}{y} - \frac{1}{1-y} + \frac{1}{\mu} \right)\frac{\partial y}{ \partial b}\right] \\\\ &= - E_y \left[1-2y+\frac{1}{\mu}y(1-y)\right] \end{aligned}$

随机梯度下降

上边计算梯度都是基于 y 的期望，实际实现的时候是采用随机梯度下降算法
$\Delta a$ $\Delta b$
其中
$\begin{aligned} \Delta b &= \eta \left[1-(2+\frac{1}{\mu})y-\frac{y^2}{\mu}\right] \\\\ \Delta a &= \frac{\eta}{a} + x\eta \left[1-(2+\frac{1}{\mu})y-\frac{y^2}{\mu}\right] \\\\ &= \frac{\eta}{a} + x\Delta b \end{aligned}$