国科大高级人工智能2-人工神经网络（MLP、Hopfield）

最新推荐文章于 2024-07-27 14:44:38 发布

叶落叶子

最新推荐文章于 2024-07-27 14:44:38 发布

阅读量562

点赞数 1

分类专栏：高级人工智能

本文链接：https://blog.csdn.net/weixin_40485502/article/details/103864961

版权

高级人工智能专栏收录该内容

12 篇文章 19 订阅

订阅专栏

常见组合函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jYiSSFdV-1578316219152)(attachment:image.png)]

常见激活函数

在这里插入图片描述

结构

前馈神经网络（单向）
反馈/循环神经网络

学习方法

学习模型
- 增量
- 迭代
类型
- 监督
- 无监督
学习策略
- Hebbrian Learning
  - 若两端的神经元同时激活，增强联接权重
  - Unsupervised Learning
  - 循环？
  - $\omega_{ij}(t+1)=\omega_{ij}(t)+\eta(x_i(t),x_j(t))$
- Error Correction
  - 最小化实际和输出的误差
    - BP
      - 目标函数： $\omega^* =argmin_{\omega} \frac{1}{K} \Sigma_{k=1}^Ke(D_k,Y_k)$
      - 迭代： $\omega \leftarrow \omega+\Delta \omega= \omega+\eta \delta$
    - delta rule(LMS rule,windrow-hoff
- 随机学习（模拟退火？）
  - 采用随机模式，跳出局部极小
    - 如果网络性能提高，新参数被接受.
    - 否则，新参数依概率接受

重要的ANN

	…损失函数…	…目标函数…	…激活函数…	…更新…	特点
多层感知机（MLP，全连接)	L(y,f(x))	$=\int L(y,f(x))p(x,y)dx,R_{emf}=\Sigma L(y,f(x))$	$v=\sigma_i\omega_ix_i,y=f(v)$	梯度法	-
多层感知机（MLP，全连接–>BP网络)	平方误差	-	$v=\sigma_i\omega_ix_i,y=f(v)，f是sigmoid，\omega=argmin(E)$	输入从前向后，损失从后向前（链式法则）,梯度下降法	允许非线性，收敛慢，过拟合，局部极小，表达能力强，容易执行
单层感知机	看分类对错	-	$\omega x=0,一面1，一面-1，权向量是一个超平面$	$\omega=\omega+y^* ·x，y^* =1或-1（C，真实y，正确：y^* =y )$	仅当线性可分时收敛，对噪声（不可分）/泛化性不好
单层感知机(最小二乘法）	平方损失 $\frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^2$	-	$y = v (线性的）$	$w^T=(X^TX)^{-1}X^TT$	仅当线性可分时收敛，对噪声（不可分）/泛化性不好
单层感知机(改进）	平方损失E= $\frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^2$	-	$y=\frac{1}{1+e^{-v}}(sigmoid$	$\frac{
\partial E}{\partial w_k}=\Sigma_{i=1}^{n\Sigma_{k=1}}m(y_k(x_i)-t_{k,i})y_k(x_i)(1-y_k(x_i))x_i$	仅当线性可分时收敛，对噪声（不可分）,泛化性不好
支持向量机	-	最大化间隔，约束： $min_\omega \frac{1}{2} \\|\omega\\|^2,y_i\omega^Tx_i \geq 1，任意i，小于则为0（relu)$	-	-	可以找到最好的分界面，解决了泛化性
Hopfield网络(能量稳定点-记忆）	-	有输入： $E=-\frac{1}{2}\Sigma_{i=0}^n\Sigma_{j=0}^n\omega_{ij}s_is_j-\Sigma_{i=0}^nI_is_i,没有输入则去除后面的$	wij=ji(i！=j)	$权值是设定的w_{ij}=\Sigma_{k=1}^Kx_{ik}x_{jk},i\neq j,否则0(n* n矩阵）（s=x)$	f分布式记忆，动态联想，记忆容量有限，伪稳定点的联想与记忆，样本接近时，难以回忆

感知机

感知机收敛定理：线性可分则收敛
- w、x是增广得到的
- 若数据集可分，
  - 存在 $w^* (||w^* ||=1),\gamma>0,使得y_tw^* x_t\geq \gamma$
- 令最终分离超平面参数为 $w^* (||w^* ||=1)$
  - $w_kw^* =(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gamma$
  - $w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2$ ——yt=1
  - $\leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2$
  - 所以 $k\gamma \leq w_kw^* \leq ||w_k||||w^* || \leq \sqrt{k} R$
  - $k\leq \frac{R^2}{\gamma^2}$
改进
- sigmoid激活函数
  - 批处理
    - 一次性更新权重
    - 收敛慢
  - 增量模式
    - 逐样本更新
    - 随机近似，但速度快能保证收敛
MLP（多层感知机
- 在实际应用中
  - 预处理很重要—normalize
  - 调整学习率—— $\eta_t=1/t$
- 表达能力强
- 容易执行
- 收敛速度慢
  - newton法
- 过拟合（
  - 正则化，约束权值平滑性
  - 采用更少的隐层单元
- 局部极小（不同的初始化，增加扰动
- 三层-所有连续函数
- 4层：多层连续
- 权重如何学习？BP–链式法则计算反向传递