西瓜书Task 6 神经网络

一、神经元模型


神经网络中最基本的成分是神经元(neuron)模型。在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”(threshold),那么它就会被激活,即“兴奋”起来,向其他神经元发送化学物质.


#M-P神经元模型

在这个模型中,神经元接收到来自n个其他神经元传递过来的输入信号,这些输入信号通过带权重的连接(connection)进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”(activation function)处理以产生神经元的输出


理想中的激活函数是图5.2(a)所示的阶跃函数,它将输入值映射为输出值“0”或“1”,显然“1”对应于神经元兴奋,“0”对应于神经元抑制.

然而,阶跃函数具有不连续、不光滑等不太好的性质,因此实际常用Sigmoid函数作为激活函数。典型的Sigmoid函数如图5.2(b)所示,它把可能在较大范围内变化的输入值挤压到(0,1)输出值范围内,因此有时也称为“挤压函数”(squashing function)。把许多个这样的神经元按一定的层次结构连接起来,就得到了神经网络

二、感知机与多层网络


感知机(Perceptron)由两层神经元组成,如图5.3所示,输入层接收外界输入信号后传递给输出层,输出层是M-P神经元,亦称“阈值逻辑单元”。

其中η∈(0,1)称为学习率(learning rate)。从式(5.1)可看出,若感知机对训练样例(z,y)预测正确,即y=y,则感知机不发生变化,否则将根据错误的程度进行权重调整.

感知机只有输出层神经元进行激活函数处理,即只拥有一层功能神经元(functional neuron),其学习能力非常有限。

若两类模式是线性可分的,即存在一个线性超平面能将它们分开,感知机的学习过程一定会收敛(converge)

否则感知机学习过程将会发生振荡(fluctuation),w难以稳定下来,不能求得合适解,例如感知机甚至不能解决如图5.4(d)所示的异或这样简单的非线性可分问题.

三、多层功能神经元

要解决非线性可分问题,需考虑使用多层功能神经元。例如图5.5中这个简单的两层感知机就能解决异或问题。在图5.5(a)中,输出层与输入层之间的一层神经元,被称为隐层或隐含层(hidden layer),隐含层和输出层神经元都是拥有激活函数的功能神经元.

误差逆传播算法(反向传播算法)


离散属性需先进行处理:若属性值间存在“序”关系则可进行连续化;否则通常转化为k维向量,k为
属性值数.

#过拟合

其训练误差持续降低,但测试误差却可能上升.有两种策略常用来缓解BP网络的过拟合。

第一种策略是“早停”(early stopping):将数据分成训练集和验证集,训练集用来计算梯度、更新连接权和阈值,验证集用来估计误差,若训练集误差降低但验证集误差升高,则停止训练,同时返回具有最小验证集误差的连接权和阈值.

第二种策略是“正则化”(regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分。

四、全局最小与局部极小

若用E表示神经网络在训练集上的误差,则它显然是关于连接权w和阈值0的函数.此时,神经网络的训练过程可看作一个参数寻优过程,即在参数空间中,寻找一组最优参数使得E最小。

#两种“最优”:局部极小和全局最小

任意(w;0)都有 E(w;0) ≥ E(w*,0*),则 (w*;θ*) 为全局最小解。局部极小解是参数空间中的某个点,其邻域点的误差函数值均不小于该点的函数值;全局最小解则是指参数空间中所有点的误差函数值均不小于该点的误差函数值。两者对应的E(w*;0*)分别称为误差函数的局部极小值和全局最小值。在参数寻优过程中是希望找到全局最小.

#基于梯度的搜索,是使用最为广泛的参数寻优方法。

从某些初始解出发——迭代寻找最优参数值——计算误差函数在当前点的梯度——根据梯度确定搜索方向.{ 例如,由于负梯度方向是函数值下降最快的方向,因此梯度下降法就是沿着负梯度方向搜索最优解。若误差函数在当前点的梯度为零,则已达到局部极小,更新量将为零,这意味着参数的迭代停止。

#人们常采用以下策略来试图“跳出”局部极小,从而进一步接近全局最小:

①以多组不同参数值初始化多个神经网络,按标准方法训练后,取其中误差最小的解作为最终参数.这相当于从多个不同的初始点开始搜索,这样就可能陷入不同的局部极小,从中进行选择有可能获得更接近全局最小的结果。但是也会造成“跳出全局最小。

②“模拟退火”(simulatedannealing)技术。模拟退火在每一步都以一定的概率接受比当前解更差的结果,从而有助于“跳出”局部极小,在每步迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低,从而保证算法稳定.

③使用随机梯度下降.与标准梯度下降法精确计算梯度不同,随机梯度下降法在计算梯度时加入了随机因素。于是,即便陷入局部极小点,它计算出的梯度仍可能不为零,这样就有机会跳出局部极小继续搜索

④遗传算法

五、其他常见神经网络

#RBF网络

RBF(Radial Basis Function,径向基函数)网络是一种单隐层前馈神经网络,它使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合.

通常采用两步过程来训练RBF网络:第一步,确定神经元中心c,常用的方式包括随机采样、聚类等;第二步,利用BP算法等来确定参数wg和β₁

#ART网络

竞争型学习(competitive learning)是神经网络中一种常用的无监督学习策略,在使用该策略时,网络的输出神经元相互竞争,每一时刻仅有一个竟争获胜的神经元被激活,其他神经元的状态被抑制,这种机制亦称“胜者通吃”(winner-take-all)原则.

ART(Adaptive Resonance Theory,自适应谐振理论)网络是竞争型学习的重要代表,该网络由比较层、识别层、识别阈值和重置模块构成。其中,比较层负责接收输入样本,并将其传递给识别层神经元。识别层每个神经元对应一个模式类,神经元数目可在训练过程中动态增长以增加新的模式类.

ART比较好地缓解了竞争型学习中的 “可塑性-稳定性窘境”,可塑性是指神经网络要有学习新知识的能力,而稳定性则是指神经网络在学习新知识时要保持对旧知识的记忆。这就使得ART网络具有一个很重要的优点:可进行增量学习(incremental learning)

ps:增量学习是指在学得模型后,再接收到训练样例时,仅需根据新样例对模型进行更新,不必重新训练整个模型,并且先前学得的有效信息不会被“冲拌”

#SOM网络

SOM(Self-Organizing Map,自组织映射)网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维),同时保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元.

如图5.11所示,SOM网络中的输出层神经元以矩阵方式排列在二维空间中,每个神经元都拥有一个权向量,网络在接收输入向量后,将会确定输出层获胜神经元,它决定了该输入向量在低维空间中的位置。SOM的训练目标就是为每个输出层神经元找到合适的权向量,以达到保持拓扑结构的目的.

六、深度学习

复杂模型的训练效率低,易陷入过拟合,计算能力的大幅提高可缓解训练低效性,训练数据的大幅增加则可降低过拟合风险,因此,以“深度学习”(deep learning)为代表的复杂模型开始受到人们的关注.

典型的深度学习模型就是很深层的神经网络。对神经网络模型,提高容量的一个简单办法是增加隐层的数目,隐层多了,相应的神经元连接权、阈值等参数就会更多。

#预训练:无监督逐层训练是多隐层网络训练的有效手段,其基本思想是每次训练一层隐结点,训练时将上一层隐结点的输出作为输入,而本层隐结点的输出作为下一层隐结点的输入。在预训练全部完成后,再对整个网络进行“微调”(fine-tuning)训练。

事实上,“预训练+微调”的做法可视为将大量参数分组,对每组先找到局部看来比较好的设置,然后再基于这些局部较优的结果联合起来进行全局寻优

#权共享”:即让一组神经元使用相同的连接权。这个策略在卷积神经网络(Convolutional NeuralNetwork,简称CNN)中发挥了重要作用。

ps:卷积主要用于处理具有网格结构的数据,如图像、音频信号或序列数据。它是深度学习中用于特征提取的关键层,尤其是在计算机视觉领域表现出色

以CNN进行手写数字识别任务为例

CNN复合多个“卷积层”和“采样层”对输入信号进行加工,然后在连接层实现与输出目标之间的映射.每个卷积层都包含多个特征映射(feature map),每个特征映射是一个由多个神经元构成的“平面”,通过一种卷积滤波器提取输入的一种特征.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值