【UWB】ELM 极限学习机原理及公式推导

Zhao-Jichao

已于 2023-08-09 11:08:26 修改

阅读量3.8k

点赞数 1

文章标签： ELM

于 2021-11-11 10:37:38 首次发布

本文链接：https://blog.csdn.net/weixin_36815313/article/details/121258532

版权

本文详细介绍了极限学习机(ELM)的工作原理，包括单隐层神经网络结构、如何通过随机权重求解、以及其优点如高精度和快速训练。重点讲解了矩阵形式的表示和最小化损失函数的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

序号	内容
1	【小项目关键技术六】控制北斗 GPS 定位 / UWB 室内定位
2	【UWB】Savitzky Golay filter SG滤波器原理讲解
3	【UWB】Savitzky Golay filter SG滤波器快速入门并上手使用
4	【UWB】MSE 均方误差、RMSE 均方根误差
5	【UWB】Kalman filter, KF卡尔曼滤波, EKF 扩展卡尔曼滤波
6	【UWB】公式推导计算坐标值
7	【UWB】ELM 极限学习机原理及公式推导
8	【UWB】ELM，Extreme Learning Machine 极限学习机
9	【UWB】数学建模 E 题目个人解题答案 - 2021年第十八届华为杯
10	【UWB】使用 python 操作 jetson 提取 UWB 定位模块的数据，处理成坐标的格式，模块厂家为维特智能

关于代码实现请参考：【UWB】ELM，Extreme Learning Machine 极限学习机

简介

极限学习机(Extreme Learning Machine) ELM，是由南洋理工大学黄广斌教授提出来的求解单隐层神经网络的算法。

ELM最大的特点是对于传统的神经网络，尤其是单隐层前馈神经网络(SLFNs)，在保证学习精度的前提下比传统的学习算法速度更快。

在这里插入图片描述

对于上图所示的一个单隐含层神经网络，假设有 $N$ 个任意样本（ $x_1, x_2, \cdots, x_N$ ）， $L$ 个隐藏层神经元， $M$ 个输出神经元。其中样本的维度可以为任意，即 $x_i = [x_{i1}, x_{i2}, \cdots, x_{in}]^{\text{T}} \in \R^{n}$ ，期望输出假设为 $\hat{y}_i = [\hat{y}_{j1}, \hat{y}_{j2}, \cdots, \hat{y}_{jm}]^{\text{T}} \in \R^{m}$ ，网络的实际输出为 ${y}_i = [{y}_{j1}, {y}_{j2}, \cdots, {y}_{jm}]^{\text{T}} \in \R^{m}$ 。

对于上述含有 $L$ 个隐含节点的单隐含层神经网络可以表示为

$\sum_{k=1}^{L} \beta_k \cdot G(W_i \cdot X_i + b_k) = y_j$

这里， $\beta_k$ 为输出权重， $G(\cdot)$ 为隐含层的激活函数， $W_i$ 为输入权重， $X_i$ 为输入样本， $b_k$ 为第 $k$ 个神经元的偏置， $W_i \cdot X_i$ 表示 $W_i$ 和 $X_i$ 的内积， $y_j$ 表示第 $j$ 个样本的输出。

当隐藏层节点足够多时，ELM 可以逼近任何连续函数，为使得 ELM 具有更好的泛化能力，通常隐藏层神经元 $L$ 个数应该大于输入神经元 $N$ ，单隐含层神经网络的学习目标是使得输出的误差最小，即
$\min (\sum_{j=1}^N \|\hat{y}_j - y_j\|)$

即存在 $\beta_k, W_i$ 和 $b_k$ 使得
$\sum_{k=1}^{L} \beta_k \cdot G(W_i \cdot X_i + b_k) = \hat{y}_j$

改写成矩阵的形式为：
$\beta = Y$

这里 $H$ 为隐含层神经元的输出， $\beta$ 为输出权重， $T$ 为期望输出。

$\left[\begin{matrix} G(w_1 x_1 + b_1) & G(w_2 x_1 + b_2) & \cdots & G(w_L x_1 + b_L) \\ G(w_1 x_2 + b_1) & G(w_2 x_2 + b_2) & \cdots & G(w_L x_2 + b_L) \\ \vdots & \vdots & \ddots & \vdots \\ G(w_1 x_N + b_1) & G(w_2 x_N + b_2) & \cdots & G(w_L x_N + b_L) \\ \end{matrix}\right]_{N \times L}$

$\beta = \left[\begin{matrix} \beta_1^\text{T} \\ \beta_2^\text{T} \\ \vdots \\ \beta_L^\text{T} \\ \end{matrix}\right]_{L \times M},~~~~ Y = \left[\begin{matrix} y_1^\text{T} \\ y_2^\text{T} \\ \vdots \\ y_M^\text{T} \\ \end{matrix}\right]_{N \times M}$

为了能训练单隐含层神经网络，希望得到 $\hat{W}_i, \hat{b}_i$ 和 $\hat{\beta}_i$ ，使得
$\|H(\hat{W}_i, \hat{b}_i) \hat{\beta}_i - Y\| = \min_{W,b,\beta} \|H(W_i, b_i)\beta_i - Y\|$

这等价于最小化损失函数
$(\sum_{j=1}^N \|\hat{y}_j - y_j\|)$

在 ELM 神经网络中，一旦输入权重 $W_i$ 和隐含层偏置 $b_i$ 被随机确定，则隐含层的输出矩阵 $H$ 就被唯一确定，训练过程则可以转化为求解一个线性系统 $H\beta = Y$ ，因此输出权重 $\beta$ 的最小二乘解则可以通过下式求得：
$\hat{\beta} = H^+ Y$