elm极限学习机_极限学习机原理-CSDN博客

一、极限学习机的概念

极限学习机(Extreme Learning Machine) ELM，是由黄广斌提出来的求解单隐层神经网络的算法。

ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，在保证学习精度的前提下比传统的学习算法速度更快。

二、极限学习机的原理

ELM是一种新型的快速学习算法，对于单隐层神经网络，ELM 可以随机初始化输入权重和偏置并得到相应的输出权重。

(选自黄广斌老师的PPT)

对于一个单隐层神经网络(见Figure 1)，假设有 $N$ 个任意的样本 $\left ( X_i,t_i \right )$ ，其中 $X_i=\left [ x_{i1},x_{i2},\cdots,x_{in} \right ]^T\in R^n$ ， $t_i=\left [ t_{i1},t_{i2},\cdots,t_{im} \right ]^T\in R^m$ 。对于一个有 $L$ 个隐层节点的单隐层神经网络可以表示为

$\sum_{i=1}^{L}\beta _ig\left ( W_i\cdot X_j+b_i \right )=o_j,\; j=1,\cdots,N$

其中， $g\left ( x \right )$ 为激活函数， $W_i=\left [ w_{i,1},w_{i,2},\cdots,w_{i,n} \right ]^T$ 为输入权重， $\beta _i$ 为输出权重， $b _i$ 是第 $i$ 个隐层单元的偏置。 $W_i\cdot X_j$ 表示 $W_i$ 和 $X_j$ 的内积。

单隐层神经网络学习的目标是使得输出的误差最小，可以表示为

$\sum_{j=1}^{N}\left \| o_j-t_j \right \|=0$

即存在 $\beta _i$ ， $W _i$ 和 $b _i$ ，使得

$\sum_{i=1}^{L}\beta _ig\left (W_i\cdot X _j+b _i\right )=t _j,\; j=1,\cdots,N$

可以矩阵表示为

$H\beta =T$

其中， $H$ 是隐层节点的输出， $\beta$ 为输出权重， $T$ 为期望输出。

$H\left ( W_1,\cdots,W_L,b_1,\cdots,b_L,X_1,\cdots,X_L \right )$

$= \begin{bmatrix} g\left ( W_1\cdot X_1+b_1 \right ) & \cdots & g\left ( W_L\cdot X_1+b_L \right )\\ \vdots & \cdots & \vdots\\ g\left ( W_1\cdot X_N+b_1 \right ) & \cdots & g\left ( W_L\cdot X_N+b_L \right ) \end{bmatrix}_{N\times L}$

$\beta =\begin{bmatrix} \beta^{T} _1\\ \vdots \\ \beta^{T} _L \end{bmatrix}_{L\times m}$ ， $T =\begin{bmatrix} T^{T} _1\\ \vdots \\ T^{T} _N \end{bmatrix}_{N\times m}$

为了能够训练单隐层神经网络，我们希望得到 $\hat{W_i}$ ， $\hat{b_i}$ 和 $\hat{\beta _i}$ ，使得

$\left \| H\left ( \hat{W_i},\hat{b_i} \right ) \hat{\beta _i}-T\right \|=\underset{W,b,\beta}{min} \left \| H\left ( W_i,b_i\right )\beta_i-T \right \|$

其中， $i=1,\cdots,L$ ，这等价于最小化损失函数

$E=\sum_{j=1}^{N}\left ( \sum_{i=1}^{L}\beta_i g\left ( W_i\cdot X_j + b_i \right )-t_j \right )^2$

传统的一些基于梯度下降法的算法，可以用来求解这样的问题，但是基本的基于梯度的学习算法需要在迭代的过程中调整所有参数。而在ELM算法中, 一旦输入权重 $W _i$ 和隐层的偏置 $b _i$ 被随确定，隐层的输出矩阵 $H$ 就被唯一确定。训练单隐层神经网络可以转化为求解一个线性系统 $H\beta =T$ 。并且输出权重 $\beta$ 可以被确定

$\hat{\beta}=H^{\dagger }T$

其中， $H^{\dagger }$ 是矩阵 $H$ 的Moore-Penrose广义逆。且可证明求得的解 $\hat{\beta}$ 的范数是最小的并且唯一。

原文地址：http://blog.csdn.net/google19890102/article/details/18222103

 A(:,1:2);%特征
label = A(:,3);%标签

[N,n] = size(data);

L = 100;%隐层节点个数
m = 2;%要分的类别数

%--初始化权重和偏置矩阵
W = rand(n,L)*2-1;
b_1 = rand(1,L);
ind = ones(N,1);
b = b_1(ind,:);%扩充成N*L的矩阵

tempH = data*W+b;
H = g(tempH);%得到H

%对输出做处理
temp_T=zeros(N,m);
for i = 1:N
    if label(i,:) == 0
        temp_T(i,1) = 1;
    else 
        temp_T(i,2) = 1;
    end    
end
T = temp_T*2-1;

outputWeight = pinv(H)*T;

%--画出图形
x_1 = data(:,1);  
x_2 = data(:,2);  
hold on  
for i = 1 : N  
    if label(i,:) == 0  
        plot(x_1(i,:),x_2(i,:),'.g');  
    else  
        plot(x_1(i,:),x_2(i,:),'.r');  
    end  
end

output = H * outputWeight;
%---计算错误率
tempCorrect=0;
for i = 1:N
    [maxNum,index] = max(output(i,:));
    index = index-1;
    if index == label(i,:);
        tempCorrect = tempCorrect+1;
    end
end

e

function [ H ] = g( X )
    H = 1 ./ (1 + exp(-X));
end

elm﻿﻿﻿﻿极限学习机

一、极限学习机的概念

二、极限学习机的原理

elm极限学习机