第三章：神经网络入门

最新推荐文章于 2022-02-08 23:02:17 发布

hliu1307

最新推荐文章于 2022-02-08 23:02:17 发布

阅读量320

点赞数

分类专栏： # python深度学习

本文链接：https://blog.csdn.net/Whyne1307/article/details/114548649

版权

python深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

神经网络剖析
Keras框架
建立深度学习工作站
电影评论分类：二分类问题
新闻分类：多分类问题
预测房价：回归问题

神经网络剖析

多个层链接在一起组成了网络，将输入数据映射为预测值。然后损失函数将这些预测值与目标进行比较，得到损失值，用于衡量网络预测值与预期结果的匹配程度。优化器使用这个损失值来更新网络的权重。

在这里插入图片描述

层：深度学习的基础组件

层是一个数据处理模块，将一个或多个输入张量转换为一个或多个输出张量。有些层是无状态的，但大多数的层是有状态的，即层的权重。权重是利用随机梯度下降学到的一个或多个张量，其中包含网络的知识。

不同的张量格式与不同的数据处理类型需要用到不同的层。例如，简单的向量数据保存在形状为 (samples, features) 的 2D 张量中，通常用密集连接层［densely connected layer，也叫全连接层（fully connected layer）或密集层（dense layer），对应于 Keras 的 Dense 类］来处理。序列数据保存在形状为 (samples, timesteps, features) 的 3D 张量中，通常用循环层（recurrent layer，比如 Keras 的 LSTM 层）来处理。图像数据保存在 4D 张量中，通常用二维卷积层（Keras 的 Conv2D）来处理。

模型：层构成的网络

深度学习模型是层构成的有向无环图。最常见的例子就是层的线性堆叠，将单一输入映射为单一输出。一些常见的网络拓扑结构如下，双分支（two-branch）网络、多头（multihead）网络、Inception 模块。
网络的拓扑结构定义了一个假设空间（hypothesis space）。选定了网络拓扑结构，意味着将可能性空间（假设空间）限定为一系列特定的张量运算，将输入数据映射为输出数据。然后，你需要为这些张量运算的权重张量找到一组合适的值。

损失函数与优化器：配置学习过程的关键

损失函数（目标函数）——在训练过程中需要将其最小化。它能够衡量当前任务是否已成功完成。
优化器——决定如何基于损失函数对网络进行更新。它执行的是随机梯度下降（SGD）的某个变体。

Keras框架

Keras 是一个用 Python 编写的高级神经网络 API，它能够以 TensorFlow, CNTK, 或者 Theano 作为后端运行。Keras 的开发重点是支持快速的实验。能够以最小的时延把你的想法转换为实验结果，是做好研究的关键。

详见Keras框架，点击跳转

建立深度学习工作站

在开始开发深度学习应用之前，你需要建立自己的深度学习工作站。虽然并非绝对必要，但强烈推荐你在现代 NVIDIA GPU 上运行深度学习实验。某些应用，特别是卷积神经网络的图像处理和循环神经网络的序列处理，在 CPU 上的速度非常之慢，即使是高速多核 CPU 也是如此。

电影评论分类：二分类问题

IMDB 数据集包含来自互联网电影数据库（IMDB）的 50 000 条严重两极分化的评论。数据集被分为用于训练的 25 000 条评论与用于测试的 25 000 条评论，训练集和测试集都包含 50% 的正面评论和 50% 的负面评论。
详细见IDBM数据集

二分类问题的总结

通常需要对原始数据进行大量预处理，以便将其转换为张量输入到神经网络中。单词序
列可以编码为二进制向量，但也有其他编码方式。
带有 relu 激活的 Dense 层堆叠，可以解决很多种问题（包括情感分类），可能会经
常用到这种模型。
对于二分类问题（两个输出类别），网络的最后一层应该是只有一个单元并使用 sigmoid
激活的 Dense 层，网络输出应该是 0~1 范围内的标量，表示概率值。
对于二分类问题的 sigmoid 标量输出，应该使用 binary_crossentropy 损失函数。
无论问题是什么，rmsprop 优化器通常都是足够好的选择。
随着神经网络在训练数据上的表现越来越好，模型最终会过拟合，并在前所未见的数据
上得到越来越差的结果。一定要一直监控模型在训练集之外的数据上的性能。

新闻分类：多分类问题

构建一个网络，将路透社新闻划分为 46 个互斥的主题。因为有多个类别，所以这是多分类（multiclass classification）问题的一个例子。因为每个数据点只能划分到一个类别，所以更具体地说，这是单标签、多分类（single-label, multiclass classification）问题的一个例子。如果每个数据点可以划分到多个类别（主题），那它就是一个多标签、多分类（multilabel, multiclass classification）问题。
路透社数据集包含许多短新闻及其对应的主题，由路透社在 1986 年发布。它是一个简单的、广泛使用的文本分类数据集。它包括 46 个不同的主题：某些主题的样本更多，但训练集中每个主题都有至少 10 个样本。

详细见路透社数据集

多分类问题的总结

如果要对 N 个类别的数据点进行分类，网络的最后一层应该是大小为 N 的 Dense 层。
对于单标签、多分类问题，网络的最后一层应该使用 softmax 激活，这样可以输出在 N
个输出类别上的概率分布。
这种问题的损失函数几乎总是应该使用分类交叉熵。它将网络输出的概率分布与目标的
真实分布之间的距离最小化。
处理多分类问题的标签有两种方法。第一种是通过 one-hot 编码对标签进行编码，然后使用 categorical_crossentropy 作为损失函数。第二种方式是将标签编码为整数，然后使用sparse_categorical_crossentropy 损失函数。
如果需要将数据划分到许多类别中，应该避免使用太小的中间层，以免在网络中造成信息瓶颈。

预测房价：回归问题

前面两个例子都是分类问题，其目标是预测输入数据点所对应的单一离散的标签。另一种常见的机器学习问题是回归问题，它预测一个连续值而不是离散的标签，例如，根据气象数据预测明天的气温，或者根据软件说明书预测完成软件项目所需要的时间。
不要将回归问题与 logistic 回归算法混为一谈logistic 回归不是回归算法，而是分类算法。

详细见波士顿房价数据集
回归问题总结