超限学习机(ELM)

ELM(Exteme learning machine,超限学习机),由新加坡南洋理工大学的Guangbin Huang(黄光斌)副教授提出的。

1. 算法概述


ELM算法针对的问题是单隐层的前馈神经网络(single-hidden layer feedforward neural networks,SLFNs),算法特点在于输入层到隐层的权重W和偏差B可以随机设定,隐层激励函数具有无限可微的特征即可(常用的有radial basis、sine、cosine、exponential等函数),而输出层权重这里写图片描述 用回归矩阵的伪逆矩阵这里写图片描述 和训练输出值来确定。
这里写图片描述
这里的伪逆矩阵又称广义逆矩阵,即Moore-Penrose generalized inverse matrix,对于矩阵A的广义逆矩阵G满足以下表达式:
这里写图片描述
这里写图片描述要是非奇异(满秩)矩阵,广义逆矩阵可以用 这里写图片描述来求得 ,如果 这里写图片描述 是奇异矩阵,则需要用SVD(奇异值分解)来求解。
与传统的应用误差梯度下降学习策略的BP神经网络相比,ELM的优点在于学习速度很快,泛化精度高,而且不会陷入局部最小值,可以采用多种激励函数(满足无限可微即可)。而与其他算法相比,例如很火的SVM来说,ELM算法计算速度也更有优势。

以上内容均出自黄光斌老师的论文:

Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and
applications[J]. Neurocomputing, 2006, 70(1-3):489-501.

2. 在线学习和离线学习对比


批量学习(Batch Learning):
(1) 样本全部同时进入模型;
(2) 梯度下降的方法容易陷入局部最优;
(3) 学习并行性,速度快,但耗费存储量大。
在线学习(Online Learning):
(1) 样本按顺序进入模型,不断修正模型参数;
(2) 随机性强,不容易陷入局部最优;
(3) 学习串行性,需要依次迭代速度慢,但耗费存储量小。

非线性函数 这里写图片描述,训练样本和测试样本均为500个,服从均匀分布,训练样本受到噪声干扰,噪声服从这里写图片描述 分布,ELM模型输入层到隐层采用RBF函数映射,中心点位置随机选取[-10,10]中100个点,分别使用批量学习和在线学习方法进行测试。对比结果如图1所示,可见在线学习方法精度没有提高,且计算时间较长,但这种方法对于大数据量的情况也能使用。
表1 不同学习策略对比结果
这里写图片描述

3 ELM 和 OLS_RBF 对比实验


OLS_RBF是正交最小二乘径向基神经网络模型,具体内容参见这篇文章:

Chen S, Cowan C N, Grant P M. Orthogonal least squares learning algorithm for radial basis function networks.[J]. IEEE Transactions on Neural Networks, 1991, 2(2):302-9.

实验选用复杂的非线性函数,非线性函数 这里写图片描述,训练样本和测试样本均为500个,服从均匀分布,训练样本受到噪声干扰,噪声服从 这里写图片描述 分布,同样分别用ELM 和 OLS_RBF进行实验,各自重复100次得到结果。

3.1 隐层中心从样本中选择

这种条件下,ELM计算速度快,但精度是比OLS_RBF差的,且OLS_RBF具有较小的模型结构。

这里写图片描述
这里写图片描述

3.2 隐层中心由样本范围扩大若干倍数

OLS_RBF的隐层中心由原来的[-1,1]扩大若干倍数(1至2,间隔0.1)。如图2所示,随着隐层中心选取范围的扩大,模型误差MSE总体先下降后上升,在1.5左右最优,而模型结构大小呈现持续降低。
这里写图片描述
由于ELM的隐层中心数较多,隐层此次扩大倍数增加,由原来的[-1,1]扩大若干倍数(1至100,间隔1),而模型结构大小不变,设置为100,结果如图3所示。
这里写图片描述

随着隐层中心范围扩大,ELM的误差MSE也是先下降后上升,在10左右取得最优
比较两个模型在最优扩大倍数的MSE发现,两者精度几乎一致,都是0.55的水平。因为所测试的倍数范围有限,因此可能模型只获得局部最优。

3.3 样本服从正态分布的情况

之前的实验样本都是服从均匀分布的,现在让样本服从正态分布,x~N(0,0.3),对两个模型分别取最优的参数(大概选取),由于此次实验有误差离群点,因此只从曲线跟踪图像对两者进行对比。如图4,两种模型在数据密集区域(0附近)的精度都比较高,在数据稀疏区域(远离0)精度都较差,对于绝大部分点,两者的预测精度差别不大(ELM略微占优)。

这里写图片描述

3.4 实验结论

对于OLS_RBF和ELM的对比实验结果可以得出,模型的精度依赖于隐层中心范围扩大倍数的取值,在分别取最优的情况下,二者的精度差别不大,且与样本的分布无关。

  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值