极限学习机（ELM）的使用

最新推荐文章于 2024-07-31 23:45:37 发布

Jimyang1ssa

最新推荐文章于 2024-07-31 23:45:37 发布

阅读量1.4w

点赞数 2

分类专栏：机器视觉文章标签：神经网络机器学习

本文链接：https://blog.csdn.net/jiyangsb/article/details/51354488

版权

机器视觉专栏收录该内容

6 篇文章 0 订阅

订阅专栏

极限学习机的理论

在传统的神经网络训练中，我们通常的做法是要通过梯度下降算法来不断的调整隐层与输出层，输出层与隐层之间的权值矩阵，以及偏置b。但是ELM算法指出，其实隐层的权值矩阵W和偏置b其实是没有必要调整的，在学习算法开始时，任意随机给定W和b的值，利用其计算出H（隐层节点的输出），并令其保持不变，需要确定的参数就只有 $\beta$ 了。这是一个比较重要的理论基础。

单隐层前向神经网络（SLFN）结构

设前向神经网络的输入层节点数量为 $P$ ,特征向量的维数与输入节点数量相同；hidden layer的节点数量为 $L$ .

则hidden layer的第i个节点的输出为：

g (x; w i, b i) = g (x w i + b i)

$g(x;w_i,b_i)=g(xw_i+b_i)$

则相当于将P维向量映射到L维向量：

h (x) = [g (x; w l, b l), . . . ., g (x; w L, b L)]

$h(x)=[g(x;w_l,b_l),....,g(x;w_L,b_L)]$
其中wi为第输入层节点与隐层节点之间的第i个链接，bi为偏置，g为激活函数,这里使用sigmoid函数：

g (x; w i, b i) = 1 1 + e - ( x w i + b i )

$g(x;w_i,b_i)=\dfrac{1}{1+e^{-\left(xw_i+b_i\right)}}$
输出层的节点数记作M；第i个隐层节点和第j个输出层节点之间的权重为，则节点j的输出为：

f j (x) = \sum i = 1 L β i, j * g (x; w i, b i) (6)

$f_j(x)=\sum^L_{i=1}{\beta_{i,j}*g(x;w_i,b_i)} (6)$

因此输入样本X，他对应的输出为： $f(x)=[f_1(x),....,f_M(x)]$ ，其中：

β = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ β 1 : : β L ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ β 1, 1 : : β L, 1 . . . : : . . . β 1, M : : β L, M ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\beta= \left[\begin{matrix} \beta_1\\ : \\ : \\ \beta_L \\ \end{matrix}\right] =\left[\begin{matrix} \beta_{1,1} & ... & \beta_{1,M} \\ : & :& : \\ : & : & : \\ \beta_{L,1} & ... & \beta_{L,M} \\ \end{matrix}\right]$

在识别阶段，给定一个样本X，则该样本所属类别为：

l a b e l (x) = a r g j = 1, . . . ., M m a x f j (x)

$label(x)=arg_{j=1,....,M}maxf_j(x)$

使用ELM训练SLFN分类器

在ELM算法中，input weight and biases 是随机分配的，因此只有 $\beta$ 需要训练

令 $y_k$ 表示输入 $x_k$ 对应的实际的输出向量，则将所有的训练样本带入公式（6）中可以得到：

H β = Y

$H\beta=Y$

其中：

H = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ h (x 1) : : h (x N) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ g (x 1; w 1, b 1) : : g (x N; w 1, b 1) . . . : : . . . g (x 1; w L, b L) : : g (x N; w L, b L) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$H= \left[\begin{matrix} h(x_1)\\ : \\ : \\ h(x_N) \\ \end{matrix}\right] =\left[\begin{matrix} g(x_1;w_1,b_1) & ... & g(x_1;w_L,b_L)\\ : & :& : \\ : & : & : \\ g(x_N;w_1,b_1) & ... & g(x_N;w_L,b_L) \\ \end{matrix}\right]$

Y = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1 : : y N ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ y 1, 1 : : y N, 1 . . . : : . . . y 1, M : : y N, M ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$Y= \left[\begin{matrix} y_1\\ : \\ : \\ y_N \\ \end{matrix}\right] =\left[\begin{matrix} y_{1,1} & ... & y_{1,M}\\ : & :& : \\ : & : & : \\ y_{N,1}& ... &y_{N,M} \\ \end{matrix}\right]$

训练的目标是使得训练误差 $||T-H\beta||^2$ 和输出权重 $||\beta||$ 的范数最小。

因此训练过程可以表示为一个有约束最优化问题：

m i n i m i z e : ψ (β, ξ) = 1 2 | | β | | 2 + C 2 | | ξ | | 2 s u b j e c t t o : H β = T - ξ

$minimize: \psi(\beta,\xi)=\frac{1}{2}||\beta||^2+\frac{C}{2}||\xi||^2 \\subject to:H\beta=T-\xi$
其中C是一个regularization factor，用来平衡拟合函数的平滑度和函数拟合值与真实数据距离差距这两者之间的关系。
可以使用拉格朗日法解决此问题，如果矩阵