《The Forward-Forward Algorithm: Some Preliminary Investigations》

最新推荐文章于 2024-07-15 22:00:49 发布

小杨小杨1

最新推荐文章于 2024-07-15 22:00:49 发布

阅读量560

点赞数 3

分类专栏： # 非模型优化文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_45745941/article/details/129356449

版权

26 篇文章 0 订阅

订阅专栏

目的：介绍一种新的神经网络学习过程，并证明它在一些小问题上工作得足够好，值得进一步研究。

方法：

没有令人信服的证据表明，皮层明确地传播误差导数或存储神经活动，以用于后续的向后传递
通过时间反向传播作为一种学习序列的方式尤其不可信
为了在不频繁暂停的情况下处理感觉输入流，大脑需要通过不同的感觉处理阶段来处理感觉数据
后面阶段的表示可以提供自上而下的信息，这些信息在后面的时间步骤中影响前面阶段的表示，但是感知系统需要实时执行推理和学习，而不能停止执行反向传播。
需要完全了解正向传递中执行的计算，以便计算正确的导数
如果我们在正向通道中插入一个黑盒，就不可能再进行反向传播，对于前向-前向算法，黑匣子根本不会改变学习过程，因为不需要通过它进行反向传播
在没有一个完美的正向传递模型的情况下，总是可以求助于多种形式的强化学习中的一种。其思想是对权重或神经活动进行随机扰动，并将这些扰动与收益函数的结果变化联系起来。
但是强化学习过程受到高方差的影响:当许多其他变量同时被扰动时，很难看到扰动一个变量的效果。为了平均掉所有其他扰动引起的噪声，学习率需要与被扰动的变量数量成反比，这意味着强化学习的规模很糟糕，无法与反向传播竞争包含数百万或数十亿个参数的大型网络。

本文方法：

假设一层的优度函数只是该层中校正的线性神经元活动的平方和，学习的目的是使优度远高于真实数据的某个阈值，而远低于负数据的某个阈值

输入向量为正数(即实数)的概率是通过应用逻辑函数给出的，σ为sigmoid，阈值θ
在这里插入图片描述

其中yj为隐藏单元j在层归一化前的活动。负面数据可以由神经网络使用自顶向下的连接来预测，也可以由外部提供

和之前反向传播将误差从最后一层往前传不同：它不需要从最后一层将误差传递过来更新每一层的权值，而是每一层自己使用正负样本的计算来调整权值。

一个hidden unit的yj对于正样本来说总是高的，对于负样本总是低的，这样通过看平方之后的数值就能直接判断好坏样本了，为了让后边的隐藏层能不被这个信息影响学习，在第一个隐藏层后悔做一个归一化，消除掉数值大小的信息

在这里插入图片描述

可以通过使隐藏单元的活动平方和对于正数据为高，对于负数据为低来学习单个隐藏层。
但是如果第一个隐藏层的活动被用作第二个隐藏层的输入，那么仅仅通过第一个隐藏层的活动向量的长度来区分正数据和负数据是微不足道的。为了防止这种情况，FF将隐藏向量的长度归一化，然后将其作为下一层的输入
这删除了第一个隐藏层中用于确定优度的所有信息，并迫使下一个隐藏层使用第一个隐藏层中神经元相对活动中的信息。
这些相关的活动不受层规范化的影响。
换句话说，第一个隐藏层中的活动向量有长度和方向。
长度用于定义该层的优度，只有方向被传递到下一层。

对Forward-Forward算法的研究才刚刚开始，还有许多悬而未决的问题:

FF能否生成一个图像或视频的生成模型，足以创建无监督学习所需的负数据?
最好的优度函数是什么?本文在大多数实验中使用活动平方和，但对积极数据最小化活动平方和，对消极数据最大化活动平方和似乎更好一些。最近，只要最小化正数据上的未平方和(最大化负数据上的未平方和)就能很好地工作22。
最好的激活函数是什么?到目前为止，只有relu被探索过。在FF的背景下，还有许多其他的可能性，它们的行为没有被探索。使激活为t分布下密度的负对数是一种有趣的可能性。
对于空间数据，FF能否从图像不同区域的大量局部优度函数中受益?如果这种方法可行，学习速度应该会快得多。
对于顺序数据，是否可以使用快速权重来模拟简化的变压器?
FF是否可以从拥有一组试图最大化其平方活动的特征检测器和一组试图最小化其平方活动的约束违反检测器中受益?

关注