量化交易软件：赫兹量化中轻松学习神经网络自适应优化方法

最新推荐文章于 2024-10-12 21:53:35 发布

赫兹股票期货量化软件

最新推荐文章于 2024-10-12 21:53:35 发布

阅读量101

点赞数

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/Herzqt123/article/details/133856684

版权

本文探讨了自适应学习方法在神经网络训练中的优势，如AdaGrad和Adam，尤其强调了自适应梯度方法如何根据参数特性调整学习速率。作者提供了AdaGrad的实现细节，包括OpenCL内核和权重更新算法，以改进传统的随机梯度下降法。

摘要由CSDN通过智能技术生成

在之前的文章中，我们采用了不同类型的神经元，但我们始终利用随机梯度下降法来训练神经网络。该方法可称为基本方法，在实践中经常会用到其变体。不过，还有许多其他的神经网络训练方法。今天，我提议研究自适应学习方法。这一族方法可在神经网络训练期间改变神经元学习速率。

1. 自适应优化方法的显著特征

您知道并非所有馈入神经网络的特征值都会对最终结果产生相同的影响。一些参数可能会包含很多噪声，且比其他变化更频繁，振幅也有所不同。其他参数的样本可能包含稀有值，当采用固定学习速率训练神经网络时，这些稀有值可能不会被注意到。之前研究过的随机梯度下降方法的缺点之一是在此类样本上无法使用优化机制。结果就是，学习过程可能在局部最小值处停止。可采用自适应方法训练神经网络来解决该问题。这些方法能够在神经网络训练过程中动态改变学习率。这样的方法及其变体有很多数量。我们来研究其中最受欢迎的。

1.1. 自适应梯度方法（AdaGrad）

自适应梯度法于 2011 年提出。它是随机梯度下降法的一种变体。经由比较这些方法的数学公式，我们轻易注意到一个不同之处：对于所有之前的训练迭代，AdaGrad 的学习率除以梯度平方和的平方根。这种方式可降低频繁更新参数的学习率。

添加图片注释，不超过 140 字（可选）

而该方法的主要缺点来自其公式：梯度的平方和只能增长，因此学习率趋于 0。这最终会导致训练停止。

利用这种方法需要额外的计算和内存分配，以便保存每个神经元的梯度平方和。

实现

研究过理论方面之后，我们便可以进行实际实现了。我建议采用作者提供的默认超参数来实现 Adam 方法。进而，您可以尝试其他超参数变体。

早前建立的神经网络采用随机梯度下降法进行训练，为此我们已经实现了反向传播算法。现有的反向传播功能可用来实现 Adam 方法。我们只需要实现权重更新算法。这个功能需经由 updateInputWeights 方法，它是在每个神经元类里实现的。当然，我们不会删除之前创建的随机梯度下降算法。我们来创建一个替代算法，令您可以选择要采用的训练方法。

2.1. 构建 OpenCL 内核

研究 CNeuronBaseOCL 类的 Adam 方法实现。首先，创建 UpdateWeightsAdam 内核实现 OpenCL 方法。指向以下矩阵的指针则会通过参数传递给内核：

__kernel void UpdateWeightsAdam(__global double *matrix_w, __global double *matrix_g, __global double *matrix_i, __global double *matrix_m, __global double *matrix_v, int inputs, double l, double b1, double b2)

另外，在内核参数中，传递输入数据数组的大小和 Adam 算法的超参数。

在内核伊始，获取在两维的流序列号，其分别指示当前层和先前层的神经元数量。使用接收到的编号，判断缓冲区中已处理元素的初始编号。请注意，第二维中的结果流编号应乘以 “4”。这是因为为了减少流数量和程序执行的总时间，我们将利用含有 4 个元素的向量计算。

{ int i=get_global_id(0); int j=get_global_id(1); int wi=i*(inputs+1)+j*4;

判断已处理元素在数据缓冲区中的位置后，声明矢量变量，并用相应的数值填充它们。利用先前讲述的方法，并在向量中将缺失数据填充零值。

double4 m, v, weight, inp; switch(inputs-j*4) { case 0: inp=(double4)(1,0,0,0); weight=(double4)(matrix_w[wi],0,0,0); m=(double4)(matrix_m[wi],0,0,0); v=(double4)(matrix_v[wi],0,0,0); break; case 1: inp=(double4)(matrix_i[j],1,0,0); weight=(double4)(matrix_w[wi],matrix_w[wi+1],0,0); m=(double4)(matrix_m[wi],matrix_m[wi+1],0,0); v=(double4)(matrix_v[wi],matrix_v[wi+1],0,0); break; case 2: inp=(double4)(matrix_i[j],matrix_i[j+1],1,0); weight=(double4)(matrix_w[wi],matrix_w[wi+1],matrix_w[wi+2],0); m=(double4)(matrix_m[wi],matrix_m[wi+1],matrix_m[wi+2],0); v=(double4)(matrix_v[wi],matrix_v[wi+1],matrix_v[wi+2],0); break; case 3: inp=(double4)(matrix_i[j],matrix_i[j+1],matrix_i[j+2],1); weight=(double4)(matrix_w[wi],matrix_w[wi+1],matrix_w[wi+2],matrix_w[wi+3]); m=(double4)(matrix_m[wi],matrix_m[wi+1],matrix_m[wi+2],matrix_m[wi+3]); v=(double4)(matrix_v[wi],matrix_v[wi+1],matrix_v[wi+2],matrix_v[wi+3]); break; default: inp=(double4)(matrix_i[j],matrix_i[j+1],matrix_i[j+2],matrix_i[j+3]); weight=(double4)(matrix_w[wi],matrix_w[wi+1],matrix_w[wi+2],matrix_w[wi+3]); m=(double4)(matrix_m[wi],matrix_m[wi+1],matrix_m[wi+2],matrix_m[wi+3]); v=(double4)(matrix_v[wi],matrix_v[wi+1],matrix_v[wi+2],matrix_v[wi+3]); break;