“深度学习”学习日记。神经网络的学习--损失函数2

最新推荐文章于 2023-04-09 16:17:52 发布

在撒哈拉卖雨伞

最新推荐文章于 2023-04-09 16:17:52 发布

阅读量287

点赞数 3

文章标签：深度学习神经网络学习

本文链接：https://blog.csdn.net/m0_72675651/article/details/128602009

版权

2023.1.8

损失函数是表示神经网络模型在使用测试数据时评价其性能的“恶劣程度”的指标，也是在使用训练数据进行学习时，针对训练数据计算损失函数的值，找出使得损失函数的值尽可能小的权重参数。因此，如果损失函数有n个，那么我们也得将这n个损失函数的综合作为学习指标。

以交叉熵函数为例子：

这就好像是单个交叉熵函数扩大到了N分数据，不过最后是除以N，以求的“平均损失函数”，可以获得和训练数据数量无关的统一指标。

当我们遇到上百万的数据时，以全部数据为对象求损失函数的和，耗时很长，也是不科学的。好比MNIST数据集有60000张图片。

所以我们在计算神经网络模型利用MNIST数据集学习权重参数时的损失函数的和的时候，可以从60000个数据中取出1000个，作为60000个数据的“近似”。

神经网络的学习也是从训练数据选出一批数据（mini-batch），然后对“每个”mini-batch进行学习。这样的学习方式也被称为 mini-batch学习 。

import numpy as np
import sys, os
from dataset.mnist import load_mnist
import pickle

sys.path.append(os.pardir)

(x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)

print(x_train.shape, '\n', t_train.shape)  # (60000, 784) (60000, 10)
print(x_test.shape, '\n', t_test.shape)

train_size = x_train.shape[0]  # 60000
batch_size = 10
batch_mask = np.random.choice(train_size, batch_size)  # 会在0~60000区间随机选择10个数字作为索引
x_batch = x_train[batch_mask]
t_batch = t_train[batch_mask]


def loss_function(y, t):
    delta = 1e-7
    return float(-1 / batch_size) * np.sum(-1 * np.sum(t * np.log(y + delta)))


def init_network():
    with open("sample_weight.pkl", 'rb') as f:
        network = pickle.load(f)
    return network


def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)

    return y


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def softmax(x):
    if x.ndim == 2:
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

    x = x - np.max(x)
    return np.exp(x) / np.sum(np.exp(x))


network = init_network()
y = predict(network, x_batch)
print(loss_function(y, t_batch))

在神经网络的学习阶段（即利用训练数据得出最优权重的阶段）设置损失函数的原因？

损失函数是评价当前神经网络性能的“恶劣程度”的指标，在MNIST识别任务中可以讲损失函数的目的是提高识别精度。与此矛盾的是，为什么我们不能输出精度（正确率）作为评价当前神经网络性能的“恶劣程度”的指标。

如果我们在MNIST识别任务中使用输出精度作为指标，输出精度是0.50；而我们只是微小调整参数权重参数精度可能由0.50000000001变成0.50000000002，或者0.50000000000，在宏观上我们无法感知精度的变化，识别精度仍然保持在0.5左右，即便精度变化成0.51，我们也无法观察到连续变化的过程。

假设我们关注神经网络的某一项参数权重，以损失函数 $f(x)$ 作为性能指标，并且对损失函数求导得到 $f'(x)$ ，若 $f'(x)$ 为正时，我们可以将该项参数权重向负方向变化，可以减小 $f(x)$ 的值，提高神经网络的性能；反之，若 $f'(x)$ 为负时，我们可以将该项参数权重向正方向变化，可以减小 $f(x)$ 的值，提高神经网络的性能；当 $f'(x)=0$ 时，无论参数怎么变化，损失函数的值也不会变化，此时该项权重的更新就会停止。

所以精度对权重参数的微小变化几乎没有反应，即使友反应也不能连续地变化。

出去相同的原因，阶跃函数也不能作为作为激活函数，因为阶跃函数大部分地方的导数都为0，这样即便用损失函数作为指标，参数权重微小的变化也会被抹杀（影响y值）。

也就是说，一个导数不为0的函数，作为激活函数时，也可以很好的发挥损失函数的功能，这里就想到sigmoid函数（斜率恒不为0），得益于这个性质，可以然神经网络模型更好的学习。

下面代码是阶跃函数和sigmoid函数：

import matplotlib.pyplot as plt
import numpy as np


def step_function(x):
    y = np.zeros(len(x))
    for i in range(len(x)):
        if x[i] > 0:
            y[i] = 1

    return y


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


x = np.arange(-10, 10)
plt.plot(x, sigmoid(x), label="sigmoid")
plt.title("sigmoid")
plt.show()

下面代码以观察两种损失函数的运算：

import numpy as np
import sys, os
from dataset.mnist import load_mnist
import pickle  # pickle是python序列化的一个工具!可以用来把对象来以文件的形式存储起来，用的时候再加载

# pickle模块只能在python中使用，python中的几乎所有的数据类型都可以序列化！但是序列化以后得到的文件人看不懂

sys.path.append(os.pardir)


# 我们导入的x数据是28×28=784的图片
def get_data():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, flatten=True, one_hot_label=False)
    return x_test, t_test


# normalize= 归一化（正规化）将输入图片归化为0.0~1.0的值
# flatten= 设置是否将图像变成一维数组
# one_hot_label= 表示仅正确解标签1，其余的归化为0


# 现在这个阶段没学习的神经网络是如何学习得到参数的，假设“学习”好了，将学习好的权重参数保存到"sample_weight.pkl"
# 该文件以字典变量的形式保存权重和参数
def init_network():
    with open("sample_weight.pkl", 'rb') as f:  # rb: 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头
        network = pickle.load(f)  # load()函数的作用是反序列化恢复成python对象
    return network


# predict()函数以numpy数组的形式输出各个标签的对应的概率
def predict(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = softmax(a3)  # 输出层设计 分类问题 通过线性代数的运算，得到符合我们需要的10个输出层
    # print(x.shape)  # (784,)
    # print(W1.shape)  # (784, 50)
    # print(W2.shape)  # (50, 100)
    # print(W3.shape)  # (100, 10)
    # print("y的值")
    # print(y, '\n')

    return y


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def softmax(x):  # 一种神经网络的激活函数
    if x.ndim == 2:  # 判断数组x的维度是否为2
        x = x.T  # 数组（矩阵）x的转置
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T

    x = x - np.max(x)
    return np.exp(x) / np.sum(np.exp(x))


def get_t1():
    (x_train, t_train), (x_test, t_test) = load_mnist(normalize=True, one_hot_label=True)
    return t_test


def mean_squared_error(y, t):
    return 0.5 * np.sum((y - t) ** 2)


def cross_entropy_error(y, t):
    delta = 1e-7
    return -1 * np.sum(t * np.log(y + delta))


x, t = get_data()
t1 = get_t1()
# print(t1)
# print(x.shape, t.shape, t1.shape)
# print("x的值", '\n', x, '\n', "t的值", '\n', t, '\n')
network = init_network()
accuracy_cnt = 0

for i in range(len(x)):
    y = predict(network, x[i])
    t1_batch = t1[i]
    print("神经网络输出结果：", y)
    print("正解的数字标签：", '\n', t1_batch)
    p = np.argmax(y)  # 获取概率最高的元素的索引
    print("均方误差：", mean_squared_error(y, t1_batch))
    print("交叉熵误差：", cross_entropy_error(y, t1_batch), '\n')
    if p == t[i]:
        accuracy_cnt += 1

print("Accuracy:" + str(float(accuracy_cnt) / len(x)))

部分结果：