【周志华机器学习】西瓜书吃瓜教程学习笔记总结Task04

最新推荐文章于 2024-07-11 15:21:16 发布

JM-Xia

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量359

点赞数

分类专栏：【周志华机器学习】西瓜书吃瓜教程学习笔记总结文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/m0_57491311/article/details/126550527

版权

【周志华机器学习】西瓜书吃瓜教程学习笔记总结专栏收录该内容

5 篇文章 1 订阅

订阅专栏

第五章神经网络

5.1 神经元模型

神经网络neural networks：最基本的成分是神经元neuron模型，即上述定义中的“简单单元”

M -P 神经元模型：输入信号通过带权重的连接 connection)进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”activation function处理以产生神经元的输出。

5.2 感知机与多层网络

感知机Perceptron：由两层神经元组成，如图所示，输入层接收外界输入信号后传递给输出层，输出层是M-P 神经元，亦称阈值逻辑单元threshold logic unit

阈值 $\theta$ ：可看作一个固定输入为-1.0的 “哑结点”dummynode 所对应的连接权重wn+b

学习率 learning rate： $\eta \in$ (0,1)

但因为感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元 functional neuron,故其学习能力非常有限。仅能解决与、或、非这类线性可分 linearly separable的问题。而解决非线性可分问题，需考虑使用多层功能神经元。

多层功能神经元：输出层与输入层之间的一层神经元，被称为隐层或隐含层 hidden layer,隐含层和输出层神经元都是拥有激活函数的功能神经元

多层前馈神经网络 multi-layer feedforward neural networks：输入层神经元接收外界输入，隐层与输出层神经元对信号进行加工，最终结果由输出层神经元输出。每层神经元与下一层神经元全互连，神经元之间不存在同层连接，也不存在跨层连接。

总结：神经网络的学习过程，就是根据训练数据来调整神经元之间的连接权connection weight 以及每个功能神经元的阈值。

5.3 误差逆传播算法

标准误差逆传播(error BackPropagation,简称BP ) 算法：基于梯度下降(gradient descent)策略，以目标的负梯度方向对参数进行调整——先将输入示例提供给输入层神经元，然后逐层将信号前传，直到产生输出层的结果；然后计算输出层的误差，再将误差逆向传播至隐层神经元,最后根据隐层神经元的误差来对连接权和阈值进行调整迭代。目标是要最小化训练集 D 上的累积误差。

累积误差逆传播(accumulated error backpropagation)算法：类似地推导出基于累积误差最小化的更新规则

标准BP每次仅针对一个训练样例更新连接权和阈值，需进行更多次数的迭代。而累积BP 算法直接针对累积误差最小化，参数更新的频率低得多

Q：如何解决 BP 网络的过拟合？

1. 早停early stopping：将数据分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。

2. 正则化 regularization：基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分

5.4 全局最小与局部极小

局部极小 local minimum：参数空间中的某个点，其邻域点的误差函数值均不小于该点的函数值
全局最小global minimum：参数空间中所有点的误差函数值均不小于该点的误差函数值

Q：如何“跳出”局部极小？

以多组不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数.这相当于从多个不同的初始点开始搜索，这样就可能陷入不同的局部极小，从中进行选择有可能获得更接近全局最小的结果.

模拟退火simulated annealing技术：模拟退火在每一步都以一定的概率接受比当前解更差的结果，从而有助于 “跳出”局部极小。在每步迭代过程中，接受 “次优解”的概率要随着时间的推移而逐渐降低，从而保证算法稳定。

随机梯度下降：与标准梯度下降法精确计算梯度不同，随机梯度下降法在计算梯度时加入了随机因素。于是，即便陷入局部极小点，它计算出的梯度仍可能不为零，这样就有机会跳出局部极小继续搜索。

遗传算法 genetic algorithms

5.5 其他常见神经网络

RBF(Radial Basis Function,径向基函数)网络：一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函数，而输出层则是对隐层神经元输出的线性组合

竞争型学习 competitive learning：一种无监督学习，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活，其他神经元的状态被抑制

ART(Adaptive Resonance Theory,自适应谐振理论)网络：是竞争型学习的重要代表，由比较层、识别层、识别阈值和重置模块构成。其中比较层负责接收输入样本，并将其传递给识别层神经元。识别层每个神经元对应一个模式类，神经元数目可在训练过程中动态增长以增加新的模式类。

可塑性-稳定性窘境 stability plasticity dilemma：ART比较好地缓解了竞争型学习中的,可塑性是指神经网络要有学习新知识的能力，而稳定性则是指神经网络在学习新知识时要保持对旧知识的记忆。这就使得ART 网络具有一个很重要的优点：可进行增量学习 incremental learning 或在线学习 online learning。

*增量学习：在学得模型后，再接收到训练样例时，仅需根据新样例对模型进行更新，不必重新训练整个模型，并且先前学得的有效信息不会被 “冲掉”。

在线学习：每获得一个新样本就进行一次模型更新。

所以，在线学习是增量学习的特例，而增量学习可视为 “批模式” batch-mode的在线学习。

SOM(Self-Organizing Map ,自组织映射)网络：一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间(通常为二维)，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。

在接收到一个训练样本后，每个输出层神经元会计算该样本与自身携带的权向量之间的距离，距离最近的神经元成为竞争获胜者，称为最佳匹配单元(best matching unit).然后，最佳匹配单元及其邻近神经元的权向量将被调整，以使得这些权向量与当前输入样本的距离缩小，然后迭代至收敛。

结构自适应网络：将网络结构也当作学习的目标之一，并希望能在训练过程中找到最符合数据特点的网络结构

级联相关(Cascade-Correlation)网络：级联是指建立层次连接的层级结构.在开始训练时，网络只有输入层和输出层，处于最小拓扑结构；随着训练的进行，如图 5.12所示，新的隐层神经元逐渐加入，从而创建起层级结构.当新的隐层神经元加入时，其输入端连接权值是冻结固定的.相关是指通过最大化新神经元的输出与网络误差之间的相关性(correlation)来训练相

关的参数.

递归神经网络recuirent neural networks：允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信号.这样的结构与信息反馈过程，使得网络在t 时刻的输出状态不仅与t时刻的输入有关，还与£ - 1 时刻的网络状态有关，从而能处理与时间有关的动态变化。

Elman网络：隐层神经元的输出被反馈回来，与下一时刻输入层神经元提供的信号一起，作为隐层神经元在下一时刻的输入.隐层神经元通常采用Sigmoid激活函数，而网络的训练则常通过推广的BP算法进行。

Boltzmann 机：一种“基于能量的模型" ( energy-based model), 其神经元分为显层与隐层。显层用于表示数据的输入与输出，隐层则被理解为数据的内在表达.Boltzmann机中的神经元都是布尔型的。它将每个训练样本视为一个状态向量，使其出现的概率尽可能大于标准的。Boltzmann机是一个全连接图，训练网络的复杂度很高，这使其难以用于解决现实任务。

受限Boltzmann 机(Restricted Boltzmann Machine,简称 RBM )：仅保留显层与隐层之间的连接，从而将 Boltzmann 机结构由完全图简化为二部图。

对比散度（Contrastive Divergence,简称 CD)算法：受限 Boltzmann 机常用来的训练算法，对每个训练样本也先根据式(5.23)计算出隐层神经元状态的概率分布,然后根据这个概率分布采样得到h；此后，再从 ${v}'$ 产生再从 ${v}'$ 产生 ${h}'$ ；连接权的更新公式为

5.6 深度学习

无监督逐层训练(unsupervised layer-wise training)：多隐层网络训练的有效手段，其基本思想是每次训练一层隐结点，训练时将上一层隐结点的输出作为输入，而本层隐结点的输出作为下一层隐结点的输入，这称为 “预训练 " (pre-training);在预训练全部完成后，再对整个网络进行“微调” (fine- tuning)训练。

权共享 (weight sharing)：即让一组神经元使用相同的连接权.这个策略在卷积神经网络(Convolutional Neural Network,简称 CNN) 中发挥了重要作用