超限学习机（ELM）

最新推荐文章于 2024-07-31 23:45:37 发布

洌泉_就这样吧

最新推荐文章于 2024-07-31 23:45:37 发布

阅读量1.1w

点赞数 7

分类专栏：数据分析文章标签：神经网络算法 ELM

本文链接：https://blog.csdn.net/baidu_35231778/article/details/52232331

版权

数据分析专栏收录该内容

12 篇文章 0 订阅

订阅专栏

ELM（Exteme learning machine，超限学习机），由新加坡南洋理工大学的Guangbin Huang（黄光斌）副教授提出的。

1. 算法概述

ELM算法针对的问题是单隐层的前馈神经网络（single-hidden layer feedforward neural networks，SLFNs），算法特点在于输入层到隐层的权重W和偏差B可以随机设定，隐层激励函数具有无限可微的特征即可（常用的有radial basis、sine、cosine、exponential等函数），而输出层权重这里写图片描述用回归矩阵的伪逆矩阵和训练输出值来确定。

这里的伪逆矩阵又称广义逆矩阵，即Moore-Penrose generalized inverse matrix，对于矩阵A的广义逆矩阵G满足以下表达式：

当要是非奇异（满秩）矩阵，广义逆矩阵可以用这里写图片描述来求得，如果是奇异矩阵，则需要用SVD（奇异值分解）来求解。
与传统的应用误差梯度下降学习策略的BP神经网络相比，ELM的优点在于学习速度很快，泛化精度高，而且不会陷入局部最小值，可以采用多种激励函数（满足无限可微即可）。而与其他算法相比，例如很火的SVM来说，ELM算法计算速度也更有优势。

以上内容均出自黄光斌老师的论文：

Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and
applications[J]. Neurocomputing, 2006, 70(1-3):489-501.

2. 在线学习和离线学习对比

批量学习（Batch Learning）：
（1）样本全部同时进入模型；
（2）梯度下降的方法容易陷入局部最优；
（3）学习并行性，速度快，但耗费存储量大。
在线学习（Online Learning）：
（1）样本按顺序进入模型，不断修正模型参数；
（2）随机性强，不容易陷入局部最优；
（3）学习串行性，需要依次迭代速度慢，但耗费存储量小。

非线性函数这里写图片描述，训练样本和测试样本均为500个，服从均匀分布，训练样本受到噪声干扰，噪声服从分布，ELM模型输入层到隐层采用RBF函数映射，中心点位置随机选取[-10,10]中100个点，分别使用批量学习和在线学习方法进行测试。对比结果如图1所示，可见在线学习方法精度没有提高，且计算时间较长，但这种方法对于大数据量的情况也能使用。
表1 不同学习策略对比结果
这里写图片描述

3 ELM 和 OLS_RBF 对比实验

OLS_RBF是正交最小二乘径向基神经网络模型，具体内容参见这篇文章：

Chen S, Cowan C N, Grant P M. Orthogonal least squares learning algorithm for radial basis function networks.[J]. IEEE Transactions on Neural Networks, 1991, 2(2):302-9.

实验选用复杂的非线性函数，非线性函数这里写图片描述，训练样本和测试样本均为500个，服从均匀分布，训练样本受到噪声干扰，噪声服从分布，同样分别用ELM 和 OLS_RBF进行实验，各自重复100次得到结果。

3.1 隐层中心从样本中选择

这种条件下，ELM计算速度快，但精度是比OLS_RBF差的，且OLS_RBF具有较小的模型结构。

这里写图片描述

3.2 隐层中心由样本范围扩大若干倍数

OLS_RBF的隐层中心由原来的[-1,1]扩大若干倍数（1至2，间隔0.1）。如图2所示，随着隐层中心选取范围的扩大，模型误差MSE总体先下降后上升，在1.5左右最优，而模型结构大小呈现持续降低。
这里写图片描述
由于ELM的隐层中心数较多，隐层此次扩大倍数增加，由原来的[-1,1]扩大若干倍数（1至100，间隔1），而模型结构大小不变，设置为100，结果如图3所示。

随着隐层中心范围扩大，ELM的误差MSE也是先下降后上升，在10左右取得最优
比较两个模型在最优扩大倍数的MSE发现，两者精度几乎一致，都是0.55的水平。因为所测试的倍数范围有限，因此可能模型只获得局部最优。

3.3 样本服从正态分布的情况

之前的实验样本都是服从均匀分布的，现在让样本服从正态分布，x~N(0,0.3)，对两个模型分别取最优的参数（大概选取），由于此次实验有误差离群点，因此只从曲线跟踪图像对两者进行对比。如图4，两种模型在数据密集区域（0附近）的精度都比较高，在数据稀疏区域（远离0）精度都较差，对于绝大部分点，两者的预测精度差别不大（ELM略微占优）。

这里写图片描述