RELU激活函数的导数(caffee)

FakeOccupational

已于 2023-07-29 18:42:05 修改

阅读量1.8k

点赞数

分类专栏：深度学习文章标签： caffee

于 2023-07-23 22:36:53 首次发布

本文链接：https://blog.csdn.net/ResumeProject/article/details/131884833

版权

深度学习专栏收录该内容

162 篇文章 17 订阅

订阅专栏

ReLU层作为深度学习中的激活函数，能有效缓解梯度消失问题。其导数公式确保了在x>0时导数为1，x≤0时为0。Caffe中的ReLU层反向传播代码展示了如何利用导数更新神经元的梯度。Blob数据结构用于存储数据和梯度，在反向传播过程中起到关键作用。

摘要由CSDN通过智能技术生成

数学解释

在深度学习中，ReLU层通常被用作激活函数，因为它可以有效地减少神经网络中的梯度消失问题。ReLU层的导数公式如下所示:

$f'(x)=\begin{cases}1 & \text{if } x\geq 0 \\ 0 & \text{if } x < 0 \end{cases}$

这个公式的意思是，当 $x$ 大于零时，ReLU函数的导数为 $f(\max(0,x))$ ,否则为零。这个导数公式可以帮助神经网络更好地学习非线性特征，并且可以避免梯度消失的问题。

caffee代码实现

https://github.com/BVLC/caffe/blob/2a1c552b66f026c7508d390b526f2495ed3be594/src/caffe/layers/relu_layer.cpp

template <typename Dtype>
void ReLULayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top,
    const vector<bool>& propagate_down,
    const vector<Blob<Dtype>*>& bottom) {
  if (propagate_down[0]) {
    const Dtype* bottom_data = bottom[0]->cpu_data();
    const Dtype* top_diff = top[0]->cpu_diff();
    Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();
    const int count = bottom[0]->count();
    Dtype negative_slope = this->layer_param_.relu_param().negative_slope();// negative_slope一般取0
    for (int i = 0; i < count; ++i) {
      bottom_diff[i] = top_diff[i] * ((bottom_data[i] > 0)
          + negative_slope * (bottom_data[i] <= 0));
    }
  }
}

Blob

想理解以上代码，需要先了解Blob数据结构。
Caffe2 的 Data 是以 blobs 的形式组织的.blob 即是内存中被命名的 data chunk(数据块).

 protected:
  shared_ptr<SyncedMemory> data_;// 存放数据
  shared_ptr<SyncedMemory> diff_;//存放梯度
  vector<int> shape_; //存放形状
  int count_; //数据个数
  int capacity_; //数据容量
// 成员变量 https://blog.csdn.net/dengheCSDN/article/details/78018578

总之，带mutable_开头的意味着可以对返回的指针内容进行更改，而不带mutable_开头的返回const 指针，不能对其指针的内容进行修改，

解释

caffe中的数据是用blobs的形式进行数据流动的，每一层用bottom来输入数据，用top来输出数据。
根据链式法则:bottom_diff =top_diff * 导函数,其中，bottom_diff是 $\delta_l$ ，而top_diff是 $\delta_{l+1}$ ,要传播到第0层的x值
bottom_diff[i] = top_diff[i] * ((bottom_data[i] > 0)
+ negative_slope * (bottom_data[i] <= 0));（标红的部分是因为negative_slope 不为0时表示LeakyReLU激活函数）
这个代码片段展示了ReLU层在CPU上的反向传播过程。具体来说，它使用了ReLU层的导数公式来计算每个神经元的导数值。在这个过程中，如果该层是激活状态的，那么它会计算输出值与负梯度之积。

FakeOccupational

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
RELU激活函数的导数(caffee)

在深度学习中，ReLU层通常被用作激活函数，因为它可以有效地减少神经网络中的梯度消失问题。f′x10ifx≥0ifx0这个公式的意思是，当x大于零时，ReLU函数的导数为fmax0x)),否则为零。这个导数公式可以帮助神经网络更好地学习非线性特征，并且可以避免梯度消失的问题。
复制链接

扫一扫

专栏目录