概念
-
生物神经元模型
- 高中生物hhh
- 神经元两种状态
兴奋与抑制
- 高中生物hhh
-
人工神经元模型
- 输入输出关系
I i = ∑ j = 0 n w j i x j y i = f ( I i ) I_i= \sum_{j=0}^nw_{ji}x_j \\ y_i=f(I_i) Ii=j=0∑nwjixjyi=f(Ii)
其中 x j 、 w j i x_j、w_{ji} xj、wji意义如上图,特别注意的是 x 0 = 1 、 w 0 i = − θ x_0=1、w_{0i}=-\theta x0=1、w0i=−θ;
f ( ) f() f()为变换函数,决定神经元节点的输出。
- 输入输出关系
-
人工神经网络模型
- 很多,,,
- 前馈型神经网络
- 反馈神经网络
每个神经元都接受其他神经元输出作为输入,自己输出的信号经过其他神经元又反馈回自己
-
神经网络的学习
-
学习机理
- 学习要依据一定准则,即学习规则
- 栗子:家长往往对按时、准确完成家庭作业的孩子给予奖励与表扬,否则给与批评。这其中包 含一个规则:对于正确的行为给予加强(表扬),对于不正确的行为给予抑制(批评)。
- 人工神经网络的学习规则:网络连接权的调整规则。
- 权重的动态调整是人工神经网络学习的最基本过程。这一过程就是网络修改它的权重来适应外部输入的过程。
-
学习方法
- 有监督学习
- 无监督学习
- 强化学习
-
学习规则
-
Hebb学习规则
如果一个神经元从另一个神经元接受一个输入,并且如果两个神经元都处于高度活动状态,这时两个神经元的连接权重就要被加强
数学描述
w i j ( k + 1 ) = w i j ( k ) + I i I j w_{ij}(k+1)=w_{ij}(k)+I_iI_j wij(k+1)=wij(k)+IiIj
其中, w i j ( k ) w_{ij}(k) wij(k)为链接从神经元i到神经元j当前的权值; I i , I j Ii,Ij Ii,Ij为神经元的激活水平 -
δ学习规则
改变单元间的连接权重来减小系统实际输出与应有输出间的误差。
数学描述
E = 1 2 ∑ p = 1 p ( d p − y p ) 2 E=\frac{1}{2}\sum_{p=1}^p(d_p-y_p)^2 E=21p=1∑p(dp−yp)2
其中, d p d_p dp代表的期望输出(教师信号); y p = f ( W X p ) y_p=f(WX_p) yp=f(WXp)为网络的实际输出;W是网络的所有权值组成的向量: W = ( w 0 , w 1 … . . w n ) T W=(w_0,w_1…..w_n)^T W=(w0,w1…..wn)T
X p X_p Xp为输入模式: X p = ( x p 0 , x p 1 … . . x p n ) T Xp=(x_{p0},x_{p1}…..x_{pn})^T Xp=(xp0,xp1…..xpn)T,训练样本数 p = 1 , 2 … P p=1,2…P p=1,2…P
使用梯度下降法求出向量W使得E最小
-
-
-
BP神经网络
- 推导证明啥的不管了,上栗子
- 公式
I j = ∑ i w i j O i + θ j I_j = \sum_iw_{ij}O_i+\theta_j Ij=i∑wijOi+θj
O i O_i Oi相当于 x i x_i xi, w i j w_{ij} wij为权重
O j = 1 1 + e − I j O_j = \frac{1}{1+e^{-I_j}} Oj=1+e−Ij1
这里的O_j为激励函数
E r r k = O k ( 1 − O k ) ( T − O k ) Err_k = O_k(1-O_k)(T-O_k) Errk=Ok(1−Ok)(T−Ok)
E r r k Err_k Errk为误差,T为输出值
E r r j = O j ( 1 − O j ) ∑ k E r r k w j k Err_j = O_j(1-O_j)\sum_kErr_kw_{jk} Errj=Oj(1−Oj)k∑Errkwjk
E r r j Err_j Errj为前一层节点的误差
Δ w i j = η E r r j O i \Delta w_{ij} = \eta Err_jO_i Δwij=ηErrjOi
η \eta η为学习率
w i j = w i j + Δ w i j w_{ij} =w_{ij} + \Delta w_{ij} wij=wij+Δwij
Δ θ j = η E r r j \Delta \theta_j = \eta Err_j Δθj=ηErrj
θ j = θ j + Δ θ j \theta_j = \theta_j + \Delta \theta_j θj=θj+Δθj
某BP神经网络初始状态如下,假定学习率为0.9:
x1 | x2 | x3 | w14 | w15 | w24 | w25 | w34 | w35 | w46 | w56 | θ4 | θ5 | θ6 | T |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0 | 1 | 0.2 | -0.3 | 0.4 | 0.1 | -0.5 | 0.2 | -0.3 | -0.2 | -0.4 | 0.2 | 0.1 | 1 |
单元j | 净输入 I j I_j Ij | 输出 O j O_j Oj |
---|---|---|
4 | x 1 w 14 + x 2 w 24 + x 3 w 34 + θ 4 = 0.2 + 0 − 0.5 − 0.4 = − 0.7 x_1w_{14}+x_2w_{24}+x_3w_{34}+\theta_4=0.2+0-0.5-0.4=-0.7 x1w14+x2w24+x3w34+θ4=0.2+0−0.5−0.4=−0.7 | 1 / ( 1 + e 0.7 ) = 0.332 1/(1+e^{0.7})=0.332 1/(1+e0.7)=0.332 |
5 | x 1 w 12 + x 2 w 25 + x 3 w 35 + θ 5 = − 0.3 + 0 + 0.2 + 0.2 = − 0.1 x_1w_{12}+x_2w_{25}+x_3w_{35}+\theta_5=-0.3+0+0.2+0.2=-0.1 x1w12+x2w25+x3w35+θ5=−0.3+0+0.2+0.2=−0.1 | 1 / ( 1 + e − 0.1 ) = 0.525 1/(1+e^{-0.1})=0.525 1/(1+e−0.1)=0.525 |
6 | O 4 w 46 + O 5 w 56 + θ 6 = − 0.3 ( 0.332 ) − 0.2 ( 0.525 ) = − 0.105 O_4w_{46}+O_5w_{56}+\theta_6=-0.3(0.332)-0.2(0.525)=-0.105 O4w46+O5w56+θ6=−0.3(0.332)−0.2(0.525)=−0.105 | 1 / ( 1 + e 0.105 ) = 0.474 1/(1+e^{0.105})=0.474 1/(1+e0.105)=0.474 |
单元j | E r r j Err_j Errj |
---|---|
6 | O 6 ( 1 − O 6 ) ( T − O 6 ) = 0.474 ( 1 − 0.474 ) ( 1 − 0.474 ) = 0.1311 O_6(1-O_6)(T-O_6)=0.474(1-0.474)(1-0.474)=0.1311 O6(1−O6)(T−O6)=0.474(1−0.474)(1−0.474)=0.1311 |
5 | O 5 ( 1 − O 5 ) ∑ k E r r k w 5 k = 0.525 ( 1 − 0.525 ) ( 0.1311 ) ( − 0.2 ) = − 0.0065 O_5(1-O_5)\sum_kErr_kw_{5k}=0.525(1-0.525)(0.1311)(-0.2)=-0.0065 O5(1−O5)∑kErrkw5k=0.525(1−0.525)(0.1311)(−0.2)=−0.0065 |
4 | O 4 ( 1 − O 4 ) ∑ k E r r k w 4 k = 0.332 ( 1 − 0.332 ) ( 0.1311 ) ( − 0.3 ) = − 0.0087 O_4(1-O_4)\sum_kErr_kw_{4k}=0.332(1-0.332)(0.1311)(-0.3)=-0.0087 O4(1−O4)∑kErrkw4k=0.332(1−0.332)(0.1311)(−0.3)=−0.0087 |
权重/偏倚 | 新值 |
---|---|
w 46 w_{46} w46 | w 46 + Δ w = w 46 + η E r r 6 O 4 = − 0.3 + 0.9 ( 0.1311 ) ( 0.332 ) = − 0.261 w_{46}+\Delta w=w_{46}+\eta Err_6O_4=-0.3+0.9(0.1311)(0.332)=-0.261 w46+Δw=w46+ηErr6O4=−0.3+0.9(0.1311)(0.332)=−0.261 |
w 56 w_{56} w56 | w 56 + Δ w = w 56 + η E r r 6 O 5 = − 0.2 + 0.9 ( 0.1311 ) ( 0.525 ) = − 0.138 w_{56}+\Delta w=w_{56}+\eta Err_6O_5=-0.2+0.9(0.1311)(0.525)=-0.138 w56+Δw=w56+ηErr6O5=−0.2+0.9(0.1311)(0.525)=−0.138 |
w 14 w_{14} w14 | w 14 + Δ w = w 14 + η E r r 4 O 1 = 0.2 + 0.9 ( − 0.0087 ) ( 1 ) = 0.192 w_{14}+\Delta w=w_{14}+\eta Err_4O_1=0.2+0.9(-0.0087)(1)=0.192 w14+Δw=w14+ηErr4O1=0.2+0.9(−0.0087)(1)=0.192 |
w 15 w_{15} w15 | w 15 + Δ w = w 15 + η E r r 5 O 1 = − 0.3 + 0.9 ( − 0.0065 ) ( 1 ) = − 0.306 w_{15}+\Delta w=w_{15}+\eta Err_5O_1=-0.3+0.9(-0.0065)(1)=-0.306 w15+Δw=w15+ηErr5O1=−0.3+0.9(−0.0065)(1)=−0.306 |
w 24 w_{24} w24 | w 24 + Δ w = w 24 + η E r r 4 O 2 = 0.4 + 0.9 ( − 0.0087 ) ( 0 ) = 0.4 w_{24}+\Delta w=w_{24}+\eta Err_4O_2=0.4+0.9(-0.0087)(0)=0.4 w24+Δw=w24+ηErr4O2=0.4+0.9(−0.0087)(0)=0.4 |
w 25 w_{25} w25 | w 25 + Δ w = w 25 + η E r r 5 O 2 = 0.1 + 0.9 ( − 0.0065 ) ( 0 ) = 0.1 w_{25}+\Delta w=w_{25}+\eta Err_5O_2=0.1+0.9(-0.0065)(0)=0.1 w25+Δw=w25+ηErr5O2=0.1+0.9(−0.0065)(0)=0.1 |
w 34 w_{34} w34 | w 34 + Δ w = w 34 + η E r r 4 O 3 = − 0.5 + 0.9 ( − 0.0087 ) ( 1 ) = − 0.508 w_{34}+\Delta w=w_{34}+\eta Err_4O_3=-0.5+0.9(-0.0087)(1)=-0.508 w34+Δw=w34+ηErr4O3=−0.5+0.9(−0.0087)(1)=−0.508 |
w 35 w_{35} w35 | w 35 + Δ w = w 35 + η E r r 5 O 3 = 0.2 + 0.9 ( − 0.0065 ) ( 1 ) = 0.194 w_{35}+\Delta w=w_{35}+\eta Err_5O_3=0.2+0.9(-0.0065)(1)=0.194 w35+Δw=w35+ηErr5O3=0.2+0.9(−0.0065)(1)=0.194 |
θ 6 \theta_6 θ6 | θ 6 + Δ θ = θ 6 + η E r r 6 = 0.1 + 0.9 ( 0.1311 ) = 0.218 \theta_6+\Delta \theta=\theta_6+\eta Err_6=0.1+0.9(0.1311)=0.218 θ6+Δθ=θ6+ηErr6=0.1+0.9(0.1311)=0.218 |
θ 5 \theta_5 θ5 | θ 5 + Δ θ = θ 5 + η E r r 5 = 0.2 + 0.9 ( − 0.0065 ) = 0.194 \theta_5+\Delta \theta=\theta_5+\eta Err_5=0.2+0.9(-0.0065)=0.194 θ5+Δθ=θ5+ηErr5=0.2+0.9(−0.0065)=0.194 |
θ 4 \theta_4 θ4 | θ 4 + Δ θ = θ 4 + η E r r 4 = − 0.4 + 0.9 ( − 0.0087 ) = − 0.408 \theta_4+\Delta \theta=\theta_4+\eta Err_4=-0.4+0.9(-0.0087)=-0.408 θ4+Δθ=θ4+ηErr4=−0.4+0.9(−0.0087)=−0.408 |