[有监督学习] 8.详细图解神经网络

神经网络

一直以来,人们都认为神经网络(Neural Network,NN)是模仿生物体的神经网络设计而成的。神经网络既可以用于回归,也可以用于分类,但在实际应用中常用于分类。基于神经网络的深
度学习因在图像识别和语音识别等领域表现优异而广为人知。


概述
神经网络在输入数据和输出结果之间插入了叫作中间层的层,能够学习复杂的决策边界。它既可以用于回归,也可以用于分类,但主要还是应用于分类问题。本节也以分类问题为例进行说明。
图 2-35 是一个典型的神经网络的网络结构。

▲图 2-35 神经网络的典型网络结构
在图 2-35 中,输入数据为三维数据,中间层为二维数据,输出为一维数据(关于从输入层到中间层、从中间层到输出层之间的计算,后面的“算法说明”部分将详细介绍)。左端的层叫作输入层,表示输入数据本身。右端的层叫作输出层,取输入数据分类结果的概率。在二元分类的情况下,输出层输出的概率只有一个。在多元分类的情况下,输出层同时输出属于每个分类对象的标签的概率。通过在输入层和输出层中间叠加中间层,神经网络得以学习复杂的决策边界。
下面我们将神经网络应用于具体任务,查看它的结果。本节将对一个叫作 MNIST 的手写数字数据集进行分类。MNIST 包含从 0 到 9 的 10 个手写数字的图片,我们对图片进行分类。MNIST 的图片是 8 × 8 的灰度图像,如图 2-36 所示。

▲图 2-36 MNIST 手写数字数据示例


本次创建的神经网络如图 2-37 所示,图中省略了各个节点之间的连接线。

▲图 2-37 MNIST 的神经网络示意图
输入层表示输入图像(64 维向量)本身。如果将各个点的像素值存储在长度为 64 的一维数组的元素中,则可以将其视为 64 维数据来处理。下面通过神经网络来学习使用上述方法得到的 64 维数据。
中间层使用 Sigmoid 等非线性函数计算输入层传来的数据。中间层的维度是超参数。使维度变大可以学习更加复杂的边界,但是容易发生过拟合。本次设置中间层为 16 维。下面的“算法说明”部分将再次介绍中间层的计算方法、中间层的维度和学习结果的关系。
输出层也同样使用非线性函数计算中间层传来的数据。本次任务是对 0~9 这 10 个数字进行分类。因此,输出层输出的是输入手写图像分别为 0~9 这 10 个数字的概率。
下面使用这个神经网络进行学习,并进行分类(图 2-38)。

▲图 2-38 使用神经网络进行分类


图中的 Label 代表作为正确答案的数字,Prediction 代表作为神经网络的分类结果的数字,下方的图像是输入数据。可以看出,神经网络可以正确地识别出这些手写数字。


算法说明
通过叠加中间层,神经网络可以学习复杂的决策边界。下面首先介绍一下只由输入层和输出层构成的简单感知机,然后再探讨如何通过叠加中间层来学习更加复杂的决策边界。


简单感知机
简单感知机是将非线性函数应用于对特征值加权后的结果并进行识别的模型。下面看一个例子:某特征的维度为 2,输入的特征值为,使用下面的非线性函数 f 计算概率 y:

我们将其中的特征值的系数 w1 和 w2 称为权重,将常数项 w0 称为偏置。权重和偏置都是学习参数。非线性函数 f 叫作激活函数,它以加权后的特征值之和作为输入,计算概率y。常用的激活函数有 Sigmoid 函数等。
图 2-39 的左边是简单感知机的示意图,展示了如何对加权后的输入和偏置之和应用激活函数并计算输出。我们有时也可以像图 2-39 右边那样省略求和的部分和激活函数,只显示输入和输出部分。在这种简化图中常常省略节点的变量名。

▲图 2-39 权重和激活函数的关系


简单感知机与逻辑回归具有类似的特性。其实在用 Sigmoid 函数作为激活函数 f 时,简单感知机和逻辑回归是等价的。


神经网络
通过叠加简单感知机,神经网络得以表示复杂的决策边界。简单感知机不能很好地学习某些数据的决策边界。逻辑回归无法成功地对非线性决策边界进行分类,简单感知机也是如此。比如,对于如图 2-40 所示的线性不可分的数据,简单感知机无法进行正确分类。

▲图 2-40 简单感知机无法正确分类的例子


神经网络通过下面介绍的方式解决这个问题。首先,设置区分右上角的点和其他点的层、区分左下角的点和其他点的层。这些夹在输入和输出之间的层叫作中间层或隐藏层。然后,设置综合这两个输出结果并进行最终决定的层。通过这种做法,我们就可以根据数据是否进入被两条直线夹住的地方来分类了。
图 2-41 的左侧表示各个层的学习情况,右侧是模型的示意图。右图表示从二维输入到两个中间层的输出,再到得到最终的输出的过程。图中的节点表示特征及其输出等变量,边表示用于进行下一个变量的计算的输入。

▲图 2-41 神经网络的结构


神经网络通过这种设置中间层的方式,可以利用单一算法学习各种决策边界。通过调节中间层的数量及层的深度,神经网络可以学习更复杂的边界,如图 2-42 所示。

▲图 2-42 神经网络的示意图


示例代码
下面读取“概述”部分提到的 MNIST 数据集,将其分割成训练数据和验证数据,使用训练数据训练模型,使用验证数据评估正确率。每次运行结果都有所不同,不过结果的正确率都在 95% 左右。
 

from sklearn.datasets import load_digits
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

data = load_digits()
X = data.images.reshape(len(data.images), -1)
y = data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
model = MLPClassifier(hidden_layer_sizes=(16, ))
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_pred, y_test)

结果:

0.9629629629629629

详细说明
通过增加中间层的数量和增加中间层的节点数量等方法,神经网络可以学习复杂的数据。但是,模型变得复杂之后容易过拟合。下面介绍一种名为 Early Stopping(早停法)的防止过拟合的方法。

Early Stopping

Early Stopping是指在进入过拟合状态前停止训练的防止过拟合的方法。与正则化的方法相比,它让人觉得有些不一样。
Early Stopping进一步划分训练数据,将其中一部分作为训练中的评估数据。在训练过程中使用评估数据,依次记录损失等评估指标,以了解训练的进度。在训练过程中,如果评估数据的损失开始恶化,开始出现过拟合的趋势,就停止训练,结束学习。这种在过拟合之前停止训练的做法就叫作Early Stopping(图 2-43 Early Stopping)

▲图 2-43 Early Stopping

———————————————————————————————————————————

文章来源:书籍《图解机器学习算法》

作者:秋庭伸也 杉山阿圣 寺田学

出版社:人民邮电出版社

ISBN:9787115563569

本篇文章仅用于学习和研究目的,不会用于任何商业用途。引用书籍《图解机器学习算法》的内容旨在分享知识和启发思考,尊重原著作者宫崎修一和石田保辉的知识产权。如有侵权或者版权纠纷,请及时联系作者。
———————————————————————————————————————————

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值