三种激活函数(Relu,Sigmoid,tanh)与多层感知机

最新推荐文章于 2022-12-08 15:37:25 发布

phac123

最新推荐文章于 2022-12-08 15:37:25 发布

阅读量1k

点赞数

分类专栏： Pytorch 人工智能文章标签：深度学习 python 机器学习

本文链接：https://blog.csdn.net/weixin_42596275/article/details/125821730

版权

人工智能同时被 2 个专栏收录

38 篇文章 1 订阅

订阅专栏

Pytorch

23 篇文章 0 订阅

订阅专栏

文章目录

Relu
Sigmoid函数
tanh函数
多层感知机
小结

Relu

ReLU（rectified linear unit）函数提供了一个很简单的非线性变换。给定元素xx，该函数定义为:
$R e LU (x) = ma x (x, 0)$
实现:

import torch
import numpy as np
import matplotlib.pylab as plt
import sys
sys.path.append("..")
import d2lzh_pytorch as d2l

def xyplot(x_vals, y_vals, name):
    d2l.set_figsize(figsize=(5, 2.5))
    d2l.plt.plot(x_vals.detach().numpy(), y_vals.detach().numpy())
    d2l.plt.xlabel('x')
    d2l.plt.ylabel(name + '(x)')

x = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = x.relu()
xyplot(x, y, 'relu')
plt.show()

在这里插入图片描述
显然，当输入为负数时，ReLU函数的导数为0；当输入为正数时，ReLU函数的导数为1。尽管输入为0时ReLU函数不可导，但是我们可以取此处的导数为0。下面绘制ReLU函数的导数。

y.sum().backward()
xyplot(x, x.grad, 'grad of relu')

在这里插入图片描述

Sigmoid函数

sigmoid函数可以将元素的值变换到0和1之间：
$sigmoid(x)=\frac{1}{1+exp(-x)}$
sigmoid函数在早期的神经网络中较为普遍，但它目前逐渐被更简单的ReLU函数取代,下面绘制了sigmoid函数。当输入接近0时，sigmoid函数接近线性变换。
在这里插入图片描述
依据链式法则，sigmoid函数的导数:
$sigmoid^{'}(x)=sigmoid(x)(1-sigmoid(x))$ .
下面绘制了sigmoid函数的导数。当输入为0时，sigmoid函数的导数达到最大值0.25；当输入越偏离0时，sigmoid函数的导数越接近0。

x.grad.zero_()
y.sum().backward()
xyplot(x, x.grad, 'grad of sigmoid')

在这里插入图片描述

tanh函数

tanh（双曲正切）函数可以将元素的值变换到-1和1之间：
$tanh(x)=\frac{1-exp(-2x)}{1+exp(-2x)}$ .
我们接着绘制tanh函数。当输入接近0时，tanh函数接近线性变换。虽然该函数的形状和sigmoid函数的形状很像，但tanh函数在坐标系的原点上对称。

y = x.tanh()
xyplot(x, y, 'tanh')

在这里插入图片描述
依据链式法则，tanh函数的导数:
$tanh^{'}(x)=1-tanh^2(x)$ .
下面绘制了tanh函数的导数。当输入为0时，tanh函数的导数达到最大值1；当输入越偏离0时，tanh函数的导数越接近0。

y.sum().backward()
xyplot(x, x.grad, 'grad of tanh')

在这里插入图片描述

多层感知机

多层感知机就是含有至少一个隐藏层的由全连接层组成的神经网络，且每个隐藏层的输出通过激活函数进行变换。多层感知机的层数和各隐藏层中隐藏单元个数都是超参数。以单隐藏层为例并沿用本节之前定义的符号，多层感知机按以下方式计算输出：
$H=ϕ(XW_h+b_h)$
$O=HW_o+B_o$
其中ϕ表示激活函数。在分类问题中，我们可以对输出O做softmax运算，并使用softmax回归中的交叉熵损失函数。在回归问题中，我们将输出层的输出个数设为1，并将输出O直接提供给线性回归中使用的平方损失函数