多角度理解sigmoid，relu和tanh激活函数

最新推荐文章于 2024-07-09 23:15:27 发布

小豚鼠lullaby

最新推荐文章于 2024-07-09 23:15:27 发布

阅读量2k

点赞数 3

文章标签：算法 python 神经网络深度学习机器学习

本文链接：https://blog.csdn.net/m0_56531353/article/details/117877941

版权

sigmoid激活函数

函数表达式:

函数图像：

通过该图，可以看出对于sigmoid激活函数的一下几个特点：

1.当输入大于零时，输出一定大于0.5

2.当输入超过6时，输出将会无限接近于1，该函数的辨别功能将会失效

3.函数的阈值在0，1之间

4.具有良好的对称性

根据上述几个特点，我们可以初步总结sigmoid函数的应用场景：sigmoid的输出在0和1之间，我们在二分类任务中，采用sigmoid的输出的事件概率，也就是当输出满足满足某一概率条件我们将其划分分类，所以sigmoid函数适合作为二分类问题的输出层。

下面通过几个角度更加深入的理解sigmoid函数：

一.通过生活中的实例解释sigmoid激活函数：

题目：已知某样本实验者的身高，体重，每日锻炼时长，猜测实验者的性别。

首先根据sigmoid的特性，即当输入大于6时函数将会基本失效，则我们设定评判身高体重和每日锻炼时长的最高分为6，这里先估计某人的身高为5，体重为4.4，腰围为4，锻炼时长为4.3

然后设置身高的权重为0.3，体重的权重为4.4，腰围的权重为0.2，锻炼时长的权重为0.2

对于阈值，设置0到0.6为女生，0.6到1为男生

通过如上计算，可以得到结果为0.96，则判断该人很有可能是男生。

但是经过笔者在多次计算后发现之前说的通过分值代替身高体重的方法输入的数值还是太大了，如果输入的数大部分在3左右，则最后得出基本都是在0.9以上，很难有较好的判别效果分类，所以下述中，使用厘米计算身高，吨计算体重，小时计算锻炼时长，先简化放弃腰围，再次计算。

在上述计算中，通过第一次计算将阈值分界点从0.5改到了0.62，于是判断出了性别。

通过上述实验可以看出，sigmoid激活函数适合于在输出层作为二分类实验，以输出结果。

二.通过bp神经网络代码实验sigmoid激活函数

sigmoid函数代码定义：

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

使用sigmoid激活函数实现bp神经网络的完整代码，该神经网络是通过前面的跳高成绩去预测下一次跳高是成功还是失败，其中1代表成功0代表失败：

import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def main():
    # 14条数据
    data = np.array([
        [1, 0, 0, 1, 0, 1, 1, 1],
        [0, 0, 1, 1, 0, 0, 1, 0],
        [1, 1, 0, 1, 1, 1, 0, 1],
        [0, 1, 0, 1, 0, 0, 1, 1],
        [1, 0, 1, 1, 0, 1, 1, 1],
        [1, 1, 0, 0, 1, 1, 1, 0],
        [0, 0, 0, 1, 0, 0, 1, 1],
        [1, 0, 1, 1, 0, 1, 1, 1],
        [1, 1, 0, 1, 0, 1, 0, 1],
        [1, 0, 0, 0, 1, 0, 1, 1],
        [1, 0, 0, 1, 0, 1, 1, 0],
        [0, 0, 1, 1, 0, 1, 0, 1],
        [1, 0, 0, 1, 0, 0, 1, 1],
        [0, 1, 0, 1, 0, 1, 1, 1]])
    print("原始数据：\n", data)
    # 十四条数据的跳高成绩
    highJump = np.array(
        [0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0])
    print("十四条数据的跳高成绩：\n", highJump)
    # 第十五条数据的输入
    data15 = np.array([0, 1, 0, 1, 1, 0, 1, 0])
    print("第十五条数据的输入：\n", data15)
    # 设置输入层与隐藏层之间的权值和阈值
    wInput = np.random.random(size=(6, 8)) / 10
    print("输入层与隐藏层之间的六组权值:\n", wInput)
    bInput = np.random.random(size=(6, 8)) / 10
    print("输入层与隐藏层之间的六组阈值:\n", bInput)
    # 设置隐藏层与输出层之间的权值和阈值
    wOutput = np.random.random(size=6) / 10
    print("隐藏层与输出层之间的一组权值", wOutput)
    bOutput = np.random.random(size=6) / 10
    print("隐藏层与输出层之间的一组阈值", bOutput)
    loss = 2
    count = 0
    while loss > 1.7489:
        count = count + 1
        loss = 0
        outputNode = []
        for i in range(0, 14):

            # 正向传播
            # 计算隐藏层节点输入
            hide = []
            for j in range(0, 6):
                hideNode = 0
                for k in range(0, 8):
                    hideNode = data[i, k] * wInput[j, k] + \
                               bInput[j, k] + hideNode
                #print(hideNode)
                hideNode = sigmoid(hideNode)  # 激活函数
                hide.append(hideNode)
            hide = np.array(hide)
            # print("隐藏层结点", hide)
            output = 0
            for j in range(0, 6):
                output = hide[j] * wOutput[j] + bOutput[j] + output
            output = sigmoid(output)
            outputNode.append(output)
            # print("输出层结点", output)
            loss = ((output - highJump[i]) * (output - highJump[i])) / 2 + loss
        outputNode = np.array(outputNode)
        # 反向传播
        # print("隐藏层结点", hide)
        for i in range(0, 14):
            # 隐藏层与输出层之间权值阈值更新
            wOutputLoss = []
            for j in range(0, 6):
                wOutputLoss.append((outputNode[i] - highJump[i]) *
                                   outputNode[i] * (1 - outputNode[i])
                                   * hide[j])
            wOutputLoss = np.array(wOutputLoss)
            # print("wOutputLoss", wOutputLoss)
            bOutputLoss = []
            for j in range(0, 6):
                bOutputLoss.append((outputNode[i] - highJump[i]) *
                                   outputNode[i] * (1 - outputNode[i]))
            bOutputLoss = np.array(bOutputLoss)
            # print("bOutputLoss", bOutputLoss)
            for j in range(0, 6):
                wOutput[j] = wOutput[j] - 0.1 * wOutputLoss[j]
                bOutput[j] = bOutput[j] - 0.1 * bOutputLoss[j]
            # print("隐藏层与输出层更新后权值和阈值", wOutput, bOutput)
            # 输入层与隐藏层之间权值更新
            wInputLoss = np.ones((6, 8)) * 0
            for j in range(0, 6):
                for k in range(0, 8):
                    wInputLoss[j][k] = ((outputNode[i] - highJump[i]) *
                                        outputNode[i] *
                                        (1 - outputNode[i]) * wOutput[j]
                                        * hide[j] * (1 - hide[j]) * data[i][k])
            wInputLoss = np.array(wInputLoss)
            # print("wIutputLoss", wInputLoss)
            bInputLoss = np.ones((6, 8)) * 0
            for j in range(0, 6):
                for k in range(0, 8):
                    bInputLoss[j][k] = ((outputNode[i] - highJump[i]) *
                                        outputNode[i] * (1 - outputNode[i]) *
                                        wOutput[j] * hide[j] * (1 - hide[j]))
            bInputLoss = np.array(bInputLoss)
            #print("bIutputLoss", bInputLoss)
            for j in range(0, 6):
                for k in range(0, 8):
                    wInput[j][k] = wInput[j][k] - 0.1 * wInputLoss[j][k]
                    bInput[j][k] = bInput[j][k] - 0.1 * bInputLoss[j][k]
            #print("输入层与隐藏层之间更新后的权值和阈值", wInput, bInput)
        print("输出", output)
        print("学习前的loss", loss)
        loss = 0
        for i in range(0, 14):
            # 正向传播
            # 计算隐藏层节点输入
            hide = []
            for j in range(0, 6):
                hideNode = 0
                for k in range(0, 8):
                    hideNode = data[i, k] * wInput[j, k] + \
                               bInput[j, k] + hideNode
                hideNode = sigmoid(hideNode)  # 激活函数
                hide.append(hideNode)
            hide = np.array(hide)
            output = 0
            for j in range(0, 6):
                output = hide[j] * wOutput[j] + bOutput[j] + output
            output = sigmoid(output)
            loss = ((output - highJump[i]) * (output - highJump[i])) / 2 + loss
        print("输出", output)
        print("学习后的loss", loss)

    # 预测
    hide = []
    for j in range(0, 6):
        hideNode = 0
        for k in range(0, 8):
            hideNode = data15[k] * wInput[j, k] + \
                       bInput[j, k] + hideNode
            hideNode = sigmoid(hideNode)  # 激活函数
        hide.append(hideNode)
    hide = np.array(hide)
    output = 0
    for j in range(0, 6):
        output = hide[j] * wOutput[j] + bOutput[j] + output
    output = sigmoid(output)
    print(output)
    print(loss)
    print(count)


if __name__ == '__main__':
    main()

该bp神经网络包括了带有八个神经元（也就是原始数据中的八个01成绩）的输入层，带有六个神经元的隐藏层和一个神经元的输出层。

运行代码后得到结果：

上图是该网络首次完成学习前后的输出以及损失

上图是在第297次学习前后的输出以及损失并输出了最终的输出和损失，可以看到最后输出小于0.5，预测在下一次测试中较为有可能失败的。

tanh激活函数

函数表达式：

函数图像：

Tanh函数也称为双曲正切函数，取值范围为[-1,1]。Tanh函数是 sigmoid 的变形，Tanh函数是 0 均值的，因此实际应用中 Tanh 会比 sigmoid 更好。

通过上图，结合sigmoid函数可以得到tanh函数的几个特点：

1.双曲正切函数，tanh函数输出以0为中心，区间为[−1,1]，tanh可以想象成两个sigmoid函数放在一起，性能要高于sigmoid函数

2.收敛速度相对于Sigmoid更快

3.但是仍然存在梯度饱和与exp计算的问题。

依据上述特点，可以初步总结tanh函数的应用场景：由于tanh是sigmoid的改进版，所以sigmoid函数的应用场景tanh也都可以用，而且tanh性能更加优异，所以在不确定激活函数的时候使用tanh进行尝试的优先级仅仅在relu之后，不同于sigmoid函数适用于输出层的特性，tanh函数还可以应用在隐层和更多的情况。

和之前一样下面通过两个角度更加输入的理解tanh函数

一.通过生活中的实例解释tanh激活函数：

使用之前的题目：已知某样本实验者的身高，体重，每日锻炼时长，猜测实验者的性别。

在上述阈值中可以判断出性别，tanh函数可以使用在sigmoid适用的场景。

二.通过bp神经网络代码实验tanh激活函数

tanh函数定义代码：

def tanh(x):
    return np.sinh(x)/np.cosh(x)

使用上文中的跳高预测代码，稍作修改得到如下代码：

import numpy as np


def tanh(x):
    return np.sinh(x)/np.cosh(x)


def main():
    # 14条数据
    data = np.array([
        [1, 0, 0, 1, 0, 1, 1, 1],
        [0, 0, 1, 1, 0, 0, 1, 0],
        [1, 1, 0, 1, 1, 1, 0, 1],
        [0, 1, 0, 1, 0, 0, 1, 1],
        [1, 0, 1, 1, 0, 1, 1, 1],
        [1, 1, 0, 0, 1, 1, 1, 0],
        [0, 0, 0, 1, 0, 0, 1, 1],
        [1, 0, 1, 1, 0, 1, 1, 1],
        [1, 1, 0, 1, 0, 1, 0, 1],
        [1, 0, 0, 0, 1, 0, 1, 1],
        [1, 0, 0, 1, 0, 1, 1, 0],
        [0, 0, 1, 1, 0, 1, 0, 1],
        [1, 0, 0, 1, 0, 0, 1, 1],
        [0, 1, 0, 1, 0, 1, 1, 1]])
    print("原始数据：\n", data)
    # 十四条数据的跳高成绩
    highJump = np.array(
        [0, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0])
    print("十四条数据的跳高成绩：\n", highJump)
    # 第十五条数据的输入
    data15 = np.array([0, 1, 0, 1, 1, 0, 1, 0])
    print("第十五条数据的输入：\n", data15)
    # 设置输入层与隐藏层之间的权值和阈值
    wInput = np.random.random(size=(6, 8)) / 10
    print("输入层与隐藏层之间的六组权值:\n", wInput)
    bInput = np.random.random(size=(6, 8)) / 10
    print("输入层与隐藏层之间的六组阈值:\n", bInput)
    # 设置隐藏层与输出层之间的权值和阈值
    wOutput = np.random.random(size=6) / 10
    print("隐藏层与输出层之间的一组权值", wOutput)
    bOutput = np.random.random(size=6) / 10
    print("隐藏层与输出层之间的一组阈值", bOutput)
    loss = 2
    count = 0
    while loss < 2.1:
        count = count + 1
        loss = 0
        outputNode = []
        for i in range(0, 14):

            # 正向传播
            # 计算隐藏层节点输入
            hide = []
            for j in range(0, 6):
                hideNode = 0
                for k in range(0, 8):
                    hideNode = data[i, k] * wInput[j, k] + \
                               bInput[j, k] + hideNode
                #print(hideNode)
                hideNode = tanh(hideNode)  # 激活函数
                hide.append(hideNode)
            hide = np.array(hide)
            # print("隐藏层结点", hide)
            output = 0
            for j in range(0, 6):
                output = hide[j] * wOutput[j] + bOutput[j] + output
            output = tanh(output)
            outputNode.append(output)
            # print("输出层结点", output)
            loss = ((output - highJump[i]) * (output - highJump[i])) / 2 + loss
        outputNode = np.array(outputNode)
        # 反向传播
        # print("隐藏层结点", hide)
        for i in range(0, 14):
            # 隐藏层与输出层之间权值阈值更新
            wOutputLoss = []
            for j in range(0, 6):
                wOutputLoss.append((outputNode[i] - highJump[i]) *
                                   outputNode[i] * (1 - outputNode[i])
                                   * hide[j])
            wOutputLoss = np.array(wOutputLoss)
            # print("wOutputLoss", wOutputLoss)
            bOutputLoss = []
            for j in range(0, 6):
                bOutputLoss.append((outputNode[i] - highJump[i]) *
                                   outputNode[i] * (1 - outputNode[i]))
            bOutputLoss = np.array(bOutputLoss)
            # print("bOutputLoss", bOutputLoss)
            for j in range(0, 6):
                wOutput[j] = wOutput[j] - 0.1 * wOutputLoss[j]
                bOutput[j] = bOutput[j] - 0.1 * bOutputLoss[j]
            # print("隐藏层与输出层更新后权值和阈值", wOutput, bOutput)
            # 输入层与隐藏层之间权值更新
            wInputLoss = np.ones((6, 8)) * 0
            for j in range(0, 6):
                for k in range(0, 8):
                    wInputLoss[j][k] = ((outputNode[i] - highJump[i]) *
                                        outputNode[i] *
                                        (1 - outputNode[i]) * wOutput[j]
                                        * hide[j] * (1 - hide[j]) * data[i][k])
            wInputLoss = np.array(wInputLoss)
            # print("wIutputLoss", wInputLoss)
            bInputLoss = np.ones((6, 8)) * 0
            for j in range(0, 6):
                for k in range(0, 8):
                    bInputLoss[j][k] = ((outputNode[i] - highJump[i]) *
                                        outputNode[i] * (1 - outputNode[i]) *
                                        wOutput[j] * hide[j] * (1 - hide[j]))
            bInputLoss = np.array(bInputLoss)
            #print("bIutputLoss", bInputLoss)
            for j in range(0, 6):
                for k in range(0, 8):
                    wInput[j][k] = wInput[j][k] - 0.1 * wInputLoss[j][k]
                    bInput[j][k] = bInput[j][k] - 0.1 * bInputLoss[j][k]
            #print("输入层与隐藏层之间更新后的权值和阈值", wInput, bInput)
        print("输出", output)
        print("学习前的loss", loss)
        loss = 0
        for i in range(0, 14):
            # 正向传播
            # 计算隐藏层节点输入
            hide = []
            for j in range(0, 6):
                hideNode = 0
                for k in range(0, 8):
                    hideNode = data[i, k] * wInput[j, k] + \
                               bInput[j, k] + hideNode
                hideNode = tanh(hideNode)  # 激活函数
                hide.append(hideNode)
            hide = np.array(hide)
            output = 0
            for j in range(0, 6):
                output = hide[j] * wOutput[j] + bOutput[j] + output
            output = tanh(output)
            loss = ((output - highJump[i]) * (output - highJump[i])) / 2 + loss
        print("输出", output)
        print("学习后的loss", loss)

    # 预测
    hide = []
    for j in range(0, 6):
        hideNode = 0
        for k in range(0, 8):
            hideNode = data15[k] * wInput[j, k] + \
                       bInput[j, k] + hideNode
            hideNode = tanh(hideNode)  # 激活函数
        hide.append(hideNode)
    hide = np.array(hide)
    output = 0
    for j in range(0, 6):
        output = hide[j] * wOutput[j] + bOutput[j] + output
    output = tanh(output)
    print(output)
    print(loss)
    print(count)


if __name__ == '__main__':
    main()

上述代码和之前的bp神经网络有着相同的层，每层有相同的神经元，仅对loss结果和激活函数进行了修改。

上述代码在一开始的运行结果如图: