神经网络入门
这是《Deep Learning with Python》第 3 章的学习笔记。
本章内容包括:
- 神经网络的核心部件
- Keras 简介
- 搭建深度学习工作站
- 用神经网络解决基本分类和回归问题
你已经知道,神经网络的训练涉及如下东西:
- 组合到网络(或模型)中的层
- 输入的数据及其对应的目标
- 损失函数,反馈信号用于学习
- 优化器,决定如何进行学习
层:深度学习的建筑构件
层是神经网络的基本数据结构。层是数据处理模块,层的输入和输出是一个或多个张量。有些层没有状态表示,但更多常见的层有个状态表示:层的权重。权重包含着该网络的知识,用于张量随机梯度下降的学习。
不同的层适用于不同的张量格式和不同的数据类型。例如,简单的向量数据格式为 2 维张量(样本,特征),常为密集连接层所用。密集连接层,又叫全连接层,在 Keras 中为 Dense 类。序列数据格式为 3 维张量(样本,时间步,特征),常由诸如 LSTM 等循环层进行处理。图像数据格式为 4 维张量,常由卷积层(Conv2D)处理。
建造 Keras 深度学习模型,就是把几个相互兼容的层组合成转换数据的管道。这种管道很好用。层的兼容性,是特指每个层都只接受特定形状的张量的输入,并且输出的是特定形状的张量。例如:
from keras import layers
layer = layers.Dense(32, input_shape=(784,))
这个 layer 只接受 2 维张量,它的第 1 维(轴 0)有 784 个成员,第 2 维(轴 1)的成员数目不作限定。这个层输出的张量,第 1 维的成员数目为 32。
在其后定义的层,若与其连接,该层的输入必须是 32 维向量。此时,Keras 已经为你解决了兼容性问题。例如:
from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(32, input_shape=(784,)))
model.add(layers.Dense(32))
第二个层没有设定参数 input_shape ,但它已经自动地把前面一层的输出形状,作为自己的输入形状。
模型:层的网络
深度学习模型是由层构成的有向无环图。最常见的是层的线性栈,单一输入映射到单一输出。实际上,深度学习模型有许多种拓扑结构。
损失函数和优化器:学习过程的关键配置
确定网络架构后,还要选择两样东西:
- 损失函数(目标函数) —— 训练过程中,损失应该最小化。它是衡量任务是否成功完成的标尺。
- 优化器 —— 它决定着基于损失函数的网络如何更新。它是随机梯度下降(SGD)的特殊变形。
有多个输出的神经网络,可能有多个损失函数(每个输出有一个)。但梯度下降过程必须根据某单个标量的损失值,因此,有多个损失函数的网络,将各损失值平均为单一的标量值。
正确地选择目标函数极其重要,它是使网络损失最小化的捷径。如果目标与任务不能完全相关联,网络会不按你的要求而自行终止运行。
幸运的是,在处理诸如分类、回归和序列预测等问题时,有简单的指导帮助你选择正确的损失函数。例如,对于2个类的区分问题,你可用“交叉熵二分法”( binary crossentropy );对于多个类的区分问题,可用“交叉熵分类法”(categorical crossentropy),等等。只有当你处理的问题是前所未见的,你才必须开发自己的目标函数。在后面几章,我们将详细展示对各种常见问题选择损失函数。