2016年8月6日, 星期六
- 神经网络的性质与能力:
- 非线性与线性,非线性是很重要的特性
- 输入输出映射(映射真是个有趣的概念,比如矩阵也可以看作映射)
- 自适应性(调整神经元的权值以适应环境变化,也就是自动调参)
- 能够上下文信息
- 容错性(可以理解为参数的冗余来保证正常工作)
- 证据响应,不仅提供决策选择,也可以提供置信度的信息(用于拒判哪些可能出现的模糊的模式,改善分类性能)
- VLSI实现(高度分层的方式,最近IBM好像出了个芯片)
- 分析与设计的一致性(作为信息处理器具有通用性质)
- 神经生物类比
- 神经元模型:
- 突触(输入与固有偏置)
- 加法器(求和节点)
- 激活函数(可以用于表现非线性特征)
- 阈值函数
- sigmoid类函数(可微分的,如logistic函数与tanh双曲正切函数)
- 神经元的统计模型:
- 伪温度的概念用于表示热波动参数,并不是物理温度
- 知识的表示规则:
- 相似类别中的相似输入通常应产生网络中相似的表示
- 相似度的表示:欧氏距离与内积,彼此相反地表示相似度
- 对于群体数据而言,可用Mahalanobis距离来表示(待查)
- 网络可分离出不同种类的输入向量给出差别很大的表示
- 如果某个特征很重要,那么这个网络表示这个向量将会涉及大量神经元
- 考虑例子:雷达探测混杂状态下的目标时,探测性能由两种概率形式来测量:
- 探测概率,目标存在时判断目标出现的概率
- 虚警概率,目标不存在时判断目标出现的概率
- Neyman-Pearson准则:虚警概率不超过预先指定值的限制下,探测概率达到最大值。
- 这意味着真实目标存在的时候应该有大量神经元参与判决该混杂状态的出现,这样能够保证判决的高度准确性和对错误神经元的容错性
- 如果存在先验信息与不变性,那就应该将其附加在网络设计中,不必学习这些信息而简化网络设计
- 这一规则会使网络具有特定结构,原因如下:
- 已知生物的视觉、听觉网络的结构特别
- 特定网络的自由参数较少,所需训练数据更少,学习更快,泛化性能强
- 能够加快特定网络信息传输速率(网络的吞吐量)
- 特定结构网络建设成本低,规模较小
- 如何在神经网络中加入先验信息:
- 并没有有效地规则来实现
- 特别的过程可以实现:
- 通过使用接收域的局部连接,限制网络结构
- 通过使权值共享,限制突触权值的选择(具有很好的附带效应,减小网络自由参数的数量)
- 通过以上两个过程,得到的局部域为卷积和形式,称为卷积网络
- 如何在神经网络中建立不变性
- 问题引出:
- 图像的旋转——不影响人识别是同一个图像
- 由于多普勒效应,雷达监测的活动目标的回声存在频率偏移——不影响对于活动目标的监测
- 人说话的语调高低快慢的变化——不影响对于句子意思的理解
- 模式识别的主要任务就是设计对这些变换不变的分类器,有以下三种技术:
- 结构不变性:即结构的设计已经考虑到对于变换的不敏感;缺点在于网络连接的数目会变得很大
- 训练不变性:同一目标的不同样本训练参数;缺点:不一定能够保证对于其他类型目标的变换也有不变性,且计算要求较高,尤其是高维空间
- 不变特征空间(想起了图像识别里面的sift算法):依赖于这样的前提条件:能够提取表示数据的本质信息内容的特征,并且该特征对输入的变换保持不变。优点如下:
- 适用于网络的特征数降低到理想水平
- 网络设计要求放宽
- 所有目标已知变换的不变性得到保证
- 学习过程:
- 有教师学习——即通过某种手段(最快速下降方向向量,根据梯度得到局部最小值,以优化误差)最小化感兴趣的代价函数
- 无教师学习
- 无监督学习
- 必须提供任务独立度量(task-independent measure)来度量网络的表达质量
- 可以使用竞争性原则(如采用包含两层的神经网络:输入层与竞争层)
- 强化学习
- 通过持续地与外界环境交互来最小化一个标量性能指标
- 学习任务:
- 模式联想
- 模式识别
- 特征提取与特征分类
- 函数逼近
- 可以应用于两个重要途径
- 系统辨识:模拟未知参数的系统行为
- 逆模型:即利用系统辨识得到未知系统的逆系统
- 实际上可以理解为监督学习,不过也可以看成逼近问题(让人想起了图像缺失的补充问题)
- 控制
- 间接学习
- 直接学习
- 波束形成
- 波束形成是用来区分目标信号与背景噪声之间的空间性质的。
- 考虑蝙蝠回声定位的例子来理解