【周志华机器学习】 西瓜书吃瓜教程 学习笔记总结Task04

第五章 神经网络

5.1 神经元模型

神经网络neural networks:最基本的成分是神经元neuron模型,即上述定义中的“简单单元”

M -P 神经元模型:输入信号通过带权重的连接 connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”activation function处理以产生神经元的输出。

5.2 感知机与多层网络  

感知机Perceptron: 由两层神经元组成,如图 所示,输入层接收外界输入信号后传递给输出层,输出层是M-P 神经元,亦称 阈值逻辑单元threshold logic unit

阈值 \theta 可看作一个固定输入为-1.0的 “哑结点”dummynode 所对应的连接权重wn+b
学习率 learning rate:\eta \in (0,1)

感知机的学习规则

   

但因为感知机只有输出层神经元进行激活函数处理 ,即只拥有一层功能神经元 functional neuron,故其学习能力非常有限。仅能解决与、或、非这类线性可分 linearly separable的问题。而解决非线性可分问题,需考虑使用多层功能神经元。

多层功能神经元: 输出层与输入层之间的一层神经元,被称为隐层或隐含层 hidden layer,隐含层和输出层神经元都是拥有激活函数的功能神经元
多层前馈神经网络 multi-layer feedforward neural networks:输入层神经元接收外界输入,隐层与输出层神经元对信号进行加工,最终结果由输出层神经元输出。每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接。

   总结:神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权connection weight 以及每个功能神经元的阈值。
5.3 误差逆传播算法
标准误差逆传播(error BackPropagation,简称BP ) 算法:基于梯度下降(gradient descent)策略,以目标的负梯度方向对参数进行调整——先将输入示例提供给输入层神经元,然后逐层将信号前传,直到产生输出层的结果;然后计算输出层的误差,再将误差逆向传播至隐层神经元,最后根据隐层神经元的误差来对连接权和阈值进行调整迭代。 目标是要最小化训练集 D 上的累积误差。
累积误差逆传播(accumulated error backpropagation)算法: 类似地推导出基于累积误差最小化的更新规则
标准BP每次仅针对一个训练样例更新连接权和阈值,需进行更多次数的迭代。而累积BP 算法 直接针对累积误差最小化,参数更新的频率低得多

BP算法

 Q:如何解决 BP 网络的过拟合?
1. 早停early stopping: 将数据分成训练集和验证集,训练集用 来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值。
2. 正则化 regularization: 基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分

 5.4 全局最小与局部极小  

局部极小 local minimum:参数空间中的某个点,其邻域点的误差函数值均不小于该点的函数值
全局最小global minimum:参数空间中所有点的误差函数值均不小于该点的误差函数值

Q: 如何“跳出”局部极小?

以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数.这相当于从多个不同的初始点开始搜索,这样就可能陷入不同的局部极小,从中进行选择有可能获得更接近全局最小的结果.
模拟退火simulated annealing技术: 模拟退火在每一步都以一定的概率接受比当前解更差的结果,从而有助于 “跳出”局部极小。在每步迭代过程中,接受 “次优解”的概率要随着时间的推移而逐渐降低,从而保证算法稳定。
随机梯度下降: 与标准梯度下降法精确计算梯度不同,随机梯度下降法在计算梯度时加入了随机因素。于是,即便陷入局部极小点,它计算出的梯度仍可能不为零,这样就有机会跳出局部极小继续搜索。
遗传算法 genetic algorithms

5.5 其他常见神经网络  

RBF(Radial Basis Function,径向基函数)网络: 一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函 数,而输出层则是对隐层神经元输出的线性组合

竞争型学习 competitive learning: 一种无监督学习,网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被激活,其他神经元的状态被抑制
ART(Adaptive Resonance Theory,自适应谐振理论)网络: 是竞争型学习的重要代表,由比较层、识别层、识别 阈值和重置模块构成。其中比较层负责接收输入样本,并将其传递给识别层神经元。识别层每个神经元对应一个模式类,神经元数目可在训练过程中动态增长以增加新的模式类。
可塑性-稳定性窘境 stability­ plasticity dilemma:ART比较好地缓解了竞争型学习中的,可塑性是指神经网络要有学习新知识的能力,而稳定性则 是指神经网络在学习新知识时要保持对旧知识的记忆。这就使得ART 网络具有一个很重要的优点:可进行增量学习 incremental learning 或在线学习  online learning。
*增量学习:在学得模型后,再接收到训练样例时,仅需根据新样例对模型进行更新,不必重新训 练整个模型,并且先前学得的有效信息不会被 “冲掉”。
 在线学习:每获得一个新样本就进行一次模型更新。
所以,在线学习是增量学习的特例,而增量学习可视为 “批模式” batch-mode的在线学习。

SOM(Self-Organizing Map ,自组织映射)网络:一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。

在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量之间的距离,距离最近的神经元成为竞争获胜者,称为最佳匹配单元(best matching unit).然后,最佳匹配单元及其邻近神经元的权向量将被调整,以使得这些权向量与当前输入样本的距离缩小,然后迭代至收敛。

结构自适应网络:将网络结构也当作学习的目标之一,并希望能在训练过程中找到最符合数据特点的网络结构

 级联相关(Cascade-Correlation)网络:级联是指建立层次 连接的层级结构.在开始训练时,网络只有输入层和输出层,处于最小拓扑结构;随着训练的进行,如 图 5.12所示,新的隐层神经元逐渐加入,从而创建起层级结构.当新的隐层神经元加入时,其输入端连接权值是冻结固定的.相关是指通过最大化新神经元的输出与网络误差之间的相关性(correlation)来训练相

关的参数.

递归神经网络recuirent neural networks:允许 网络中出现环形结构,从而可让一些神经元的输出反馈回来作为输入信号.这 样的结构与信息反馈过程,使得网络在t 时刻的输出状态不仅与t时刻的输入有关,还与£ - 1 时刻的网络状态有关,从而能处理与时间有关的动态变化。

Elman网络:隐层神经元的输出被反馈回来,与下 一时刻输入层神经元提供的信号一起,作为隐层神经元在下一时刻的输入.隐 层神经元通常采用Sigmoid激活函数,而网络的训练则常通过推广的BP算法进行。

Boltzmann 机 : 一种“基于能量的模型" ( energy-based model), 其神经元分为显层与隐层。显层用于表示数据的输入与输出,隐层则被理解为数据的内在表达.Boltzmann机中的神经元都是布尔型的。它将每个训练样本视为一个状态向量,使其出现的概率尽可能大于标准的。Boltzmann机是一个全连接图,训练网络的复杂度很高,这使其难以用于解决现实任务。

受限Boltzmann 机(Restricted Boltzmann Machine,简称 RBM ): 仅保留显层与隐层之间的连接,从而将 Boltzmann 机结构由完全图简化为二部图。
对比散度 (Contrastive Divergence,简称 CD)算法:受限 Boltzmann 机常用来的训练算法,对每个训练样本也先根据式(5.23)计算出隐层神经元状态的概率分布,然后根据这个概率分布采样得到h;此后,再从 {v}'产生再从 {v}'产生 {h}';连接权的更新公式为

5.6 深度学习
无监督逐层训练(unsupervised layer-wise training): 多隐层网络训练的有效手段,其基本思想是每次训练一层隐结点,训练时将上一层隐结点的输出作为输入,而本层隐结点的输出作为下一层隐结点的输入,这称为 “预训练 " (pre-training);在预训练全部完成后,再对整个网络进行“微调” (fine- tuning)训练。
权共享  (weight sharing): 即让一组神经元使用相同的连接权.这个策略在卷积神经网络(Convolutional Neural Network,简称 CNN) 中发挥了重要作用
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值