0.8 学习过程
1.有教师学习
学习形式:误差—修正学习
监督学习系统:闭环反馈系统
误差曲面:采用训练样本的均方误差或平方误差和,定义为关于自由参数(突触权值)的函数,利用梯度下降法求得误差极小点。
2.强化学习
启迪强化信号:评价将从周围环境中接收到的原始强化信号转换成的高质量强化信号(标量输入)。
目的:为了适应延迟强化情况下的学习,将cost-to-go函数(采取一系列步骤动作的代价累积期望值)最小化。
问题:
(1)没有教师提供一个期望的响应;
(2)存在时间信任赋值问题,学习机必须各自独立地对信任和责任赋值,而原始强化可能仅评价最终结果。
3.无监督学习
任务独立度量:度量网络的表达质量。
竞争性学习规则:“胜者全得”策略(Winner-Take-All),网络的竞争层中响应值最大的获胜神经元才有权调整向量。
0.9 学习任务
1.模式联想
联想形式:
自联想:不断出示一系列模式(向量)给网络存储,其后网络针对某已存模式的部分描述或畸变(噪声)形式,检索出已存储的该模式,使用无监督学习。
异联想:一个任意的输入模式集合与另一个输出模式集合配对,使用监督学习。
操作阶段:1.存储阶段;2.回忆阶段。
模式数目:对网络存储能力的直接度量,应使其尽量大且尽量避免回忆错误的发生。
2.模式识别:将接收到的模式或信号确定为一些指定类别中的一个类。
模式识别机的两种形式:
1.第一种:如下图所示,分为两部分,用于作特征提取的无监督网络,用于作分类的监督网络。
2.第二种:采用监督学习算法的前馈网络,特征提取由网络隐藏层的计算单元执行。
3.函数逼近
其实目的就是设计神经网络逼近未知函数,使得输入输出映射的函数在欧几里得距离的意义下与未知函数足够接近(即ε为很小的正数)。
神经网络逼近可从两个重要途径加以利用:
(1)系统辨识:逼近未知无记忆(指时间不变的系统)多输入多输出系统的映射关系。
(2)逆模型:构造逆模型,针对向量产生向量x。
4.控制
对设备进行控制操作,其实就是控制工程基础里的反馈控制内容,这里不再赘述。
为实现设备自由参数调节,需知道Jacabi矩阵(即雅可比矩阵,偏导矩阵)。
由于偏导数对不同的k,j依赖于设备的运行点,可采用两种方法近似计算:
(1)间接学习:利用设备的实际输入—输出测量值构造神经网络模型,从中给出雅可比矩阵的一个估计值,用于误差—修正学习算法。
(2)直接学习:利用偏导数符号逼近,他们的绝对值由神经控制器自由参数的一种分布式表示给出,从而直接从设备学习调节自由参数。
5.波束形成
波束形成:用来区分目标信号和背景噪音之间的空间性质,由波束形成器实现,通常用于雷达和声呐系统。
信号源方向未知和干扰信号无可用的先验信息两个因素使得在噪声和干扰中探测感兴趣的目标这一任务复杂化。一种解决方法是使用广义旁瓣消除器(GSLC)。
GSLC由以下组件构成:
(1)一个天线元阵列:对离散点上被观察信号取样;
(2)一个线性组合器:输出期望响应;
(3)一个信号阻塞矩阵:删除旁瓣泄漏的干扰;
(4)一个具有可调参数的神经网络:被设计成能适应干扰信号的统计变化。
神经—波束形成器:使用神经网络来学习的波束形成器。
0.10 结束语
通过第0章对神经网络学习的三个主要种类:监督学习、无监督学习、强化学习之间的区别和原理有了初步的了解。
其中监督学习依赖于带标号样例(含相应期望响应)的训练样本,但在实际问题中这样的带标号样例是短缺的,而无监督学习仅需无标号样例(仅有输入信号或刺激),此类样例的供应一般很充分。基于上述事实,一种半监督学习(同时采用带标号/无标号样例)被提出。
而强化学习处于监督与无监督学习之间,强调学习系统与环境的持续交互。