【Python初学】学习神经网络的数学基础

最新推荐文章于 2021-12-13 22:23:07 发布

前路漫漫其修远兮

最新推荐文章于 2021-12-13 22:23:07 发布

阅读量598

点赞数

分类专栏： Python学习文章标签： Python学习

Python学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

要理解深度学习，需要熟悉很多简单的数学概念：张量，张量运算，微分，梯度下降等。
首先给出一个神经网络的示例，引出张量和梯度下降的概念。
该示例神经网络的问题是，将手写数据的灰度图像划分到10个类别中，使用MNIST数据集。

from keras.datasets import mnist
from keras import models
from keras import layers
from keras.utils import to_categorical


# train_images, train_labels组成测试集，模型在这些数据中进行学习。test_images, test_labels测试集中对模型进行测试。
#图像被编码为Numpy数组，而标签是数字数组，取值范围为0-9，图像和标签一一对应
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

network = models.Sequential()

# 层（layer）是一种数据处理模块，进去一些数据，出来的数据变得更加有用。层从输入数据中提取表示
# 要想训练网络，我们需要选择编译步骤的三个参数1：损失函数(loss function)；2：优化器(optimizer)；3:在训练和测试过程中需要监控的指标(metric)
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))
network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

# 分类之前对数据进行的预处理
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)
network.fit(train_images, train_labels, epochs=5, batch_size=128)
test_loss, test_acc = network.evaluate(test_images, test_labels)
print('test_acc:', test_acc)

神经网络的数据表示

数据存储在Numpy数组中，也叫张量(tensor)，是数据容器。例：矩阵是二维张量。
标量
仅含一个数字的张量叫做标量，标量有0个轴(ndim == 0)。

向量
数字组成的数组叫做向量（vector）或一维张量（1D张量）

矩阵
向量组成的数组叫作矩阵（matrix）或二维张量

import numpy as np
x = np.array([[5, 4, 6, 8, 9],
                      [45, 87, 22, 5, 96],
                       [98, 12, 23, 56, 43]])
print(x.ndim)
# 得到 2

关键属性
张量由3个属性来定义
轴的个数：如3D张量有3个轴，2D张量有2个轴。
形状：如前面矩阵示例的形状为（3，5）。向量的形状值包含一个元素，比如（5，），而标量的形状为空，即为（）。
数据类型（在Python库中通常叫做detype）：张量类型可以是float32,uint8,float64等

from keras.datasets import mnist


(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
print(train_images.ndim) # 轴的个数
print(train_images.shape) # 它的形状
print(train_images.dtype)
# 输出
# 3
# (60000, 28, 28)
# uint8

这里可以看出train_images是一个由8位整数组成的3D张量。更准确的说，它是60000个矩阵组成的数组，每个矩阵由28*28个整数组成。
使用Matplotlib库来显示这个3D张量中的第4个数字

from keras.datasets import mnist
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()
print(train_images.ndim) # 轴的个数
print(train_images.shape) # 它的形状
print(train_images.dtype)

数据批量的概念
深度学习中所有数据张量的第一轴（0轴）都是样本轴，深度学习模型不会同时处理整个数据集，而是将数据拆分成小批量
下面代码是MNIST数据集对的一个批量，批量大小为128。

batch = train_image[:128]  #第一个轴叫批量轴,常出现在keras和其他深度学习库中
batch = train_image[128*n:128 *(n+1)]

现实世界的张量
向量数据：2D张量，形状（samples,features）
时间序列数据或序列数据：3D张量，形状为（samples,timesteps,features）
图像：4D张量，形状为（samples,height,width,channels）
视频：5D张量，形状为（samples,frames,height,width,channels）
向量数据
第一个轴是样本轴，第二个轴是特征轴
例：每个人的信息包括姓名，电话和地址，每个人可以表示包含3个值的向量，整个数据集包含200个，所以可以存储在形状为（200，3）的2D张量中。

张量运算

张量变形
张量变形是指改变张量的行和列，一得到想要的形状，变形后的张量元素总数个数与初始张量相同。以下代码了解张量变形。

import numpy as np
x = np.array([[0., 1.],
             [2., 3.],
             [4., 5.]])
print(x.shape)
a = x.reshape((6, 1))
print(a)
b = x.reshape((2, 3))
print(b)

矩阵转置也是张量变形

c = np.zeros((400, 30))
c = np.transpose(c)
print(c.shape)

基于梯度的优化

根据上述给的示例，每个神经层都用下述方法对输入数据进行变换

output = relu(dot(w, input)+b)

w，b都是张量，均为该层的属性，他们被称为该层的权重，分别对应Kernel和bias属性。一开始，这些权重矩阵取较小的随机值。下一步根据反馈信号逐渐调节这些权重，这就是机器学习中的学习。
上述学习的过程一直重复，过程如下：

抽取训练样本x,和对应的y组成的数据批量。
在x上运行网络（这一步叫前向传播），得到预测值y_pred
计算网络在这批数据上的损失，用于衡量y_pred和y之间的距离
更新网络的所有权重，使网络在这批数据上的损失略微下降。

最终得到的网络在训练数据上的损失非常小，这里会导致过拟合，一般使用优化器来解决，以后的博客来详细介绍。
综上所诉：

train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

输入图像保存在float32格式的Numpy张量中，形状分别为（60000，784）【训练数据】和（10000，784）【测试数据】

network = models.Sequential()

# 层（layer）是一种数据处理模块，进去一些数据，出来的数据变得更加有用。层从输入数据中提取表示
# 要想训练网络，我们需要选择编译步骤的三个参数1：损失函数(loss function)；2：优化器(optimizer)；3:在训练和测试过程中需要监控的指标(metric)
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

这个网络包含两个Dense层，每层对输入数据进行一些简单的张量运算，这些运算都包括张量权重

network.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy'])

上述是网络编译

network.fit(train_images, train_labels, epochs=5, batch_size=128)

fit过程中发生：网络在开始训练数据上进行迭代（每个小批量包含128个样本），共迭代5次【在所有训练数据上迭代一次叫做一个轮次】。在每次迭代过程中，网络会计算批量损失相对于权重的梯度，并相应的更新权重。

前路漫漫其修远兮

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【Python初学】学习神经网络的数学基础

要理解深度学习，需要熟悉很多简单的数学概念：张量，张量运算，微分，梯度下降等。首先给出一个神经网络的示例，引出张量和梯度下降的概念。该示例神经网络的问题是，将手写数据的灰度图像划分到10个类别中，使用MNIST数据集。from keras.datasets import mnistfrom keras import modelsfrom keras import layersfrom ...
复制链接

扫一扫