国科大高级人工智能2-人工神经网络(MLP、Hopfield)

常见组合函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYiSSFdV-1578316219152)(attachment:image.png)]

常见激活函数

在这里插入图片描述

结构

  • 前馈神经网络(单向)
  • 反馈/循环神经网络

学习方法

  • 学习模型

    • 增量
    • 迭代
  • 类型

    • 监督
    • 无监督
  • 学习策略

    • Hebbrian Learning
      • 若两端的神经元同时激活,增强联接权重
      • Unsupervised Learning
      • 循环?
      • ω i j ( t + 1 ) = ω i j ( t ) + η ( x i ( t ) , x j ( t ) ) \omega_{ij}(t+1)=\omega_{ij}(t)+\eta(x_i(t),x_j(t)) ωij(t+1)=ωij(t)+η(xi(t),xj(t))
    • Error Correction
      • 最小化实际和输出的误差
        • BP
          • 目标函数: ω ∗ = a r g m i n ω 1 K Σ k = 1 K e ( D k , Y k ) \omega^* =argmin_{\omega} \frac{1}{K} \Sigma_{k=1}^Ke(D_k,Y_k) ω=argminωK1Σk=1Ke(Dk,Yk)
          • 迭代: ω ← ω + Δ ω = ω + η δ \omega \leftarrow \omega+\Delta \omega= \omega+\eta \delta ωω+Δω=ω+ηδ
        • delta rule(LMS rule,windrow-hoff
    • 随机学习(模拟退火?)
      • 采用随机模式,跳出局部极小
        • 如果网络性能提高,新参数被接受.
        • 否则,新参数依概率接受

重要的ANN

…损失函数……目标函数……激活函数……更新…特点
多层感知机(MLP,全连接)L(y,f(x)) R ( f ) = ∫ L ( y , f ( x ) ) p ( x , y ) d x , R e m f = Σ L ( y , f ( x ) ) R(f) =\int L(y,f(x))p(x,y)dx,R_{emf}=\Sigma L(y,f(x)) R(f)=L(y,f(x))p(x,y)dx,Remf=ΣL(y,f(x)) v = σ i ω i x i , y = f ( v ) v=\sigma_i\omega_ix_i,y=f(v) v=σiωixi,y=f(v)梯度法-
多层感知机(MLP,全连接–>BP网络)平方误差- v = σ i ω i x i , y = f ( v ) , f 是 s i g m o i d , ω = a r g m i n ( E ) v=\sigma_i\omega_ix_i,y=f(v),f是sigmoid,\omega=argmin(E) v=σiωixi,y=f(v)fsigmoidω=argmin(E)输入从前向后,损失从后向前(链式法则),梯度下降法允许非线性,收敛慢,过拟合,局部极小,表达能力强,容易执行
单层感知机看分类对错- ω x = 0 , 一 面 1 , 一 面 − 1 , 权 向 量 是 一 个 超 平 面 \omega x=0,一面1,一面-1,权向量是一个超平面 ωx=0,11 ω = ω + y ∗ ⋅ x , y ∗ = 1 或 − 1 ( C , 真 实 y , 正 确 : y ∗ = y ) \omega=\omega+y^* ·x,y^* =1或-1(C,真实y,正确:y^* =y ) ω=ω+yxy=11Cyy=y)仅当线性可分时收敛,对噪声(不可分)/泛化性不好
单层感知机(最小二乘法)平方损失 1 2 Σ i = 1 n Σ k = 1 m ( y k ( x i ) − t k , i ) 2 \frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^2 21Σi=1nΣk=1m(yk(xi)tk,i)2- y = v ( 线 性 的 ) y=v(线性的) y=v(线 w T = ( X T X ) − 1 X T T w^T=(X^TX)^{-1}X^TT wT=(XTX)1XTT仅当线性可分时收敛,对噪声(不可分)/泛化性不好
单层感知机(改进)平方损失E= 1 2 Σ i = 1 n Σ k = 1 m ( y k ( x i ) − t k , i ) 2 \frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^2 21Σi=1nΣk=1m(yk(xi)tk,i)2- y = 1 1 + e − v ( s i g m o i d y=\frac{1}{1+e^{-v}}(sigmoid y=1+ev1(sigmoid$\frac{
\partial E}{\partial w_k}=\Sigma_{i=1}n\Sigma_{k=1}m(y_k(x_i)-t_{k,i})y_k(x_i)(1-y_k(x_i))x_i$仅当线性可分时收敛,对噪声(不可分),泛化性不好
支持向量机-最大化间隔,约束: m i n ω 1 2 ∥ ω ∥ 2 , y i ω T x i ≥ 1 , 任 意 i , 小 于 则 为 0 ( r e l u ) min_\omega \frac{1}{2} \|\omega\|^2,y_i\omega^Tx_i \geq 1,任意i,小于则为0(relu) minω21ω2,yiωTxi1i0relu)--可以找到最好的分界面,解决了泛化性
Hopfield网络(能量稳定点-记忆)-有输入: E = − 1 2 Σ i = 0 n Σ j = 0 n ω i j s i s j − Σ i = 0 n I i s i , 没 有 输 入 则 去 除 后 面 的 E=-\frac{1}{2}\Sigma_{i=0}^n\Sigma_{j=0}^n\omega_{ij}s_is_j-\Sigma_{i=0}^nI_is_i,没有输入则去除后面的 E=21Σi=0nΣj=0nωijsisjΣi=0nIisi,wij=ji(i!=j) 权 值 是 设 定 的 w i j = Σ k = 1 K x i k x j k , i ≠ j , 否 则 0 ( n ∗ n 矩 阵 ) ( s = x ) 权值是设定的w_{ij}=\Sigma_{k=1}^Kx_{ik}x_{jk},i\neq j,否则0(n* n矩阵)(s=x) wij=Σk=1Kxikxjk,i=j,0(nns=x)f分布式记忆,动态联想,记忆容量有限,伪稳定点的联想与记忆,样本接近时,难以回忆

感知机

  • 感知机收敛定理:线性可分则收敛

    • w、x是增广得到的
    • 若数据集可分,
      • 存在 w ∗ ( ∣ ∣ w ∗ ∣ ∣ = 1 ) , γ > 0 , 使 得 y t w ∗ x t ≥ γ w^* (||w^* ||=1),\gamma>0,使得y_tw^* x_t\geq \gamma w(w=1),γ>0,使ytwxtγ
    • 令最终分离超平面参数为 w ∗ ( ∣ ∣ w ∗ ∣ ∣ = 1 ) w^* (||w^* ||=1) w(w=1)
      • w k w ∗ = ( w k − 1 + x t y t ) w ∗ ≥ w k − 1 w ∗ + γ ≥ . . . ≥ k γ w_kw^* =(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gamma wkw=(wk1+xtyt)wwk1w+γ...kγ
      • ∣ ∣ w k ∣ ∣ 2 = ∣ ∣ w k + 1 + x t y t ∣ ∣ 2 = ∣ ∣ w k − 1 ∣ ∣ 2 + 2 w k − 1 T x t y t + ∣ ∣ x t ∣ ∣ 2 ||w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2 wk2=wk+1+xtyt2=wk12+2wk1Txtyt+xt2——yt=1
      • ≤ ∣ ∣ w k − 1 ∣ ∣ 2 + ∣ ∣ x t ∣ ∣ 2 ≤ ∣ ∣ w k − 1 ∣ ∣ 2 + R 2 ≤ . . . ≤ k R 2 \leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2 wk12+xt2wk12+R2...kR2
      • 所以 k γ ≤ w k w ∗ ≤ ∣ ∣ w k ∣ ∣ ∣ ∣ w ∗ ∣ ∣ ≤ k R k\gamma \leq w_kw^* \leq ||w_k||||w^* || \leq \sqrt{k} R kγwkwwkwk R
      • k ≤ R 2 γ 2 k\leq \frac{R^2}{\gamma^2} kγ2R2
  • 改进

    • sigmoid激活函数
      • 批处理
        • 一次性更新权重
        • 收敛慢
      • 增量模式
        • 逐样本更新
        • 随机近似,但速度快能保证收敛
  • MLP(多层感知机

    • 在实际应用中
      • 预处理很重要—normalize
      • 调整学习率—— η t = 1 / t \eta_t=1/t ηt=1/t
    • 表达能力强
    • 容易执行
    • 收敛速度慢
      • newton法
    • 过拟合(
      • 正则化,约束权值平滑性
      • 采用更少的隐层单元
    • 局部极小(不同的初始化,增加扰动
    • 三层-所有连续函数
    • 4层:多层连续
    • 权重如何学习?BP–链式法则计算反向传递

Hopfield

  • 应用
    • 将优化目标函数转换成能量函数(energy function)——网络的稳定状态是优化问题的解
  • 两个稳态:——>解
    • E最大——>w1
    • E最小——>w2
  • 两个工作方式
    • 异步:每次只改变一个状态x_i
    • 同步:所有状态均改变:x1~xn
  • 反馈网络(无向有权图)
  • 权值是设定的,而不是学习出来的
  • TSP:
    • Hopfield网络:l邻接矩阵
    • 行:城市;列:时间,每行只有一个亮,每列也只有一个on
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值