RBF神经网络详解-CSDN博客

本文链接：https://blog.csdn.net/qq_45448654/article/details/120864993

本文介绍了径向基函数神经网络（RBF网络）的基本概念，包括其快速收敛的原因、RBF函数的性质以及网络结构。详细阐述了RBF网络在函数逼近和模式分类中的应用，并以高斯核函数为例解释了其如何映射到高维空间。同时，展示了RBF网络解决插值问题的过程和最小二乘损失函数。最后，通过一个RBF神经网络实现异或问题的例子，加深了对RBF网络理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、背景知识

1988年，Broomhead、Lowe以及Moody和Darken最早将径向基函数用于神经网络设计。径向基函数神经网络（Radial Basis Function Neural Network，RBF神经网络）是一类常用的三层前馈网络，既可用于函数逼近，也可用于模式分类。与其他类型的人工神经网络相比，RBF网络有生理学基础，结构简单，学习速度快，优良的逼近性能和泛化能力等特点。
RBF network
简单说明一下为什么RBF网络收敛得比较快。当网络中的一个或多个可调参数（权值或阈值）对任何一个输出都有影响时，这样的网络称为全局逼近网络。由于对于每次输入，网络上的权值都要调整，从而导致全局逼近网络的学习速度很慢。BP神经网络就是一个典型的例子。常见的局部逼近网络有RBF网络、CMAC网络、B样条网络。

二、什么是径向基函数

径向基函数是一个取值仅仅依赖于离原点距离的实值函数（RBF）方法。也就是 $\Phi(x, c)=\Phi(||x-c||)$ 。任意一个满足 $\Phi(x)=\Phi(||x||)$ 特性的函数 $\Phi$ 都叫做径向基函数，标准的一般使用欧式距离（也叫做欧式径向基函数）。最常用的径向基函数是高斯核函数，形式为 $k(||x-x_c||)=e^{\frac{-||x-x_c||^2}{2\sigma^2}}$ 。其中 $x_c$ 为核函数中心， $\sigma$ 为函数的宽度参数，控制了函数的径向作用范围。

重要的径向基函数主要有如下三种：

Gauss（高斯）函数
$\varphi(r)=e^{-\frac{r^2}{2\sigma^2}}$
反常S型函数
$\varphi(r)=\frac{1}{1+e^\frac{r^2}{\sigma^2}}$
拟多二次函数
$\varphi(r)=\frac{1}{(r^2+c^2)^{1/2}}$

三、什么是RBF神经网络

RBF神经网络是一种三层神经网络，包括输入层、隐层、输出层。从输入空间到隐层空间的变换是非线性的，而从隐层空间到输出层空间的变换是线性的。
RBF神经网络解决插值问题
完全内插法要求插值函数经过每个样本点，即 $F(X^n)=d^n$ 。样本点总共有k个。
RBF的方法是要选择k个基函数，每个基函数对应一个训练数据，各基函数形式为 $\varphi(||X-X^k||)$ ，由于距离是径向同性的，因此称为径向基函数。 $X-X^k||$ 表示差向量的模，或者叫2范数。
基于径向基函数的插值函数为：
$F(x)=\sum_{k=1}^nw_k\varphi_k(||X-X^k||)=w_1\varphi_1(||X-X^1||)+\cdots+w_n\varphi_n(||X-X^n||)$
RBF Network2
输入X是个m维的向量，隐层大小为n，n>m。

其中，隐含层的作用是把向量从低维度m映射到高维度n，这样低维度线性不可分的情况到高维度就变得线性可分了，实际上是核函数的思想。

将插值条件代入：
$\left\{ \begin{gathered} w_1\varphi_1(||X^1-X^1||)+w_2\varphi_2(||X^1-X^2||)+\cdots+w_p\varphi_p(X^1-X^p)=d^1 \\w_1\varphi_1(||X^2-X^1||)+w_2\varphi_2(||X^2-X^2||)+\cdots+w_p\varphi_p(X^2-X^p)=d^2 \\\vdots \\w_1\varphi_1(||X^p-X^1||)+w_2\varphi_2(||X^p-X^2||)+\cdots+w_p\varphi_p(X^p-X^p)=d^p \end{gathered} \right.$

写成向量的形式为 $\Phi W=d$ ，当 $\Phi$ 可逆时，有 $W=\Phi^{-1}d$

径向基函数神经网络的激活函数：
$R(x_m-c_i)=e^\frac{-||x_m-c_i||^2}{2\sigma^2}$
其中 $x_m$ 通过RBF神经网络可得到网络的输出为：
$y_j=\sum_{i=1}^hw_{ij}e^-\frac{||x_p-c_i||^2}{2\sigma^2} j = 1,2,...,n$

采用最小二乘的损失函数：
$\sigma=\sum_{j=1}^h||d_j-y_jc_i||^2$

四、高斯核函数怎么映射高维空间

高斯核函数的定义公式如下：
$k(\textbf{x},\textbf{x}')=e^{-\frac{||\textbf{x}-\textbf{x}'||}{2\sigma^2}}$
这个公式可以化简为：
$k'(\textbf{x},\textbf{x}')=e^{-\frac{\textbf{x}\cdot \textbf{x}'}{\sigma^2}}$
然后通过幂级数进行展开：
$k'(\textbf{x},\textbf{x}')=\sum\nolimits_{n=0}^{+\infty}\frac{(\textbf{x}\cdot \textbf{x}')^n}{\sigma^nn!}$
可以看出，向量X会生成类似多项式核展开的形式。