第三十四课.模糊神经网络

最新推荐文章于 2025-04-15 09:49:54 发布

tzc_fly

最新推荐文章于 2025-04-15 09:49:54 发布

阅读量1.5w

点赞数 16

分类专栏：机器学习笔记本文章标签：神经网络概率论机器学习

本文链接：https://blog.csdn.net/qq_40943760/article/details/122261531

版权

机器学习笔记本专栏收录该内容

37 篇文章

订阅专栏

模糊理论

在本篇内容中，我们将了解模糊神经网络（Fuzzy Neural Network），在此之前，先了解模糊理论。现实世界总是充满不确定性。因此，在建模系统的时候，我们需要考虑这种不确定性。我们之前其实已经在概率论中接触过这种不确定的建模形式。类似于概率论，Zadeh开发了一种不同的不确定表示形式，即模糊集（Fuzzy Set）。

Fuzzy Set

fig1

以身高为例，定义集合A为高个子，在经典的Crisp Set（two-value，二元集）理论中，只定义某一元素隶属于或不隶属于A。比如高个子的定义是身高高于1.75m，那么身高1.78m的人是A的成员，而身高1.50m的人不是A的成员。但是这样的集合存在问题：

假设一个人身高1.73m，尽管他离1.75m的标准只差了0.02m，却被粗暴地判定为不是高个子；
在集合A里，也没有任何区分度。身高1.75m与身高2.20m被一视同仁；
对于集合A内成员，也没有包含语义（semantic）描述；

在模糊集Fuzzy Set中，所有人都是集合A的成员（member），只是匹配度不同。例如身高2.20m的人的成员匹配度可为0.95，而身高1.7m的人成员匹配度为0.40。与传统集合不同，模糊集中的每个元素都有对应的隶属度（membership value）。隶属度是指一个元素属于这个集合的确定度（或不确定度）。模糊集被隶属度函数描述，在为模糊集选择隶属度函数时，要符合以下约束：

隶属函数的下界是0，上界是1；
对于每个元素 $x\in X$ ，隶属函数 $\mu(x)$ 的值是唯一的，换言之，在同一个模糊集中，每一个元素只有一个隶属度；

从上面描述可以发现，Crisp Set其实是Fuzzy Set的特殊形式，其限制了隶属函数值为0或1。

在应用中，模糊子集用于表达更详细的语义，比如对于年龄age，其子集有old与young，以young为例，年龄对于young的隶属函数如下：
fig2

对于温度，其子集有cold，cool，comfortable，warm，hot：
fig3
另外还有更常用的子集{NB,NM,NS,O,PS,PM,PB}，7 个词汇分别代表负大Negative Big、负中Negative Middle、负小Negative Small、零Zero、正小Positive Small、正中Positive Middle、正大Positive Big。

Fuzzy set operations

现在重新定义模糊集的表示，模糊集可以被记作 $A$ ，映射 $\mu_{A}(\cdot)$ 被称为模糊集 $A$ 上的隶属函数。对于每个 $x\in U$ ， $\mu_{A}(x)$ 叫做元素 $x$ 对模糊集 $A$ 的隶属度。

模糊集的常用表示方法如下：

解析法，即给出隶属函数的具体表现形式；
Zadeh记法，例如： $A=\frac{1}{x_{1}}+\frac{0.5}{x_{2}}+\frac{0.72}{x_{3}}+\frac{0}{x_{4}}$ ，其中，分母是论域（任何科学理论都有它的研究对象，这些对象构成一个不空的集合，称为论域）中的元素，分子是该元素的隶属度，若隶属度为0，该项可以省略；
序偶法，例如 $A=\left\{(x_{1},1),(x_{2},0.5),(x_{3},0.72),(x_{4},0)\right\}$ ，序偶对的前者是论域中的元素，后者是该元素对应的隶属度；
向量法，在有限论域场合，给论域中元素规定顺序，则可以用向量表示 $A = (1, 0.5, 0.72, 0)$ ；

对于两个模糊集 $A$ 和 $B$ ，模糊集的基本运算为：

包含： $A\subseteq B\Leftrightarrow A(x)\leq B(x),x\in U$
相等： $A=B\Leftrightarrow A(x)=B(x),x\in U$
并： $A\cup B$ 的隶属函数 $\mu(x)$ 为： $(A\cup B)(x)=A(x)\vee B(x)$
交： $A\cap B$ 的隶属函数 $\mu(x)$ 为： $(A\cap B)(x)=A(x)\wedge B(x)$
余： $A^{C}$ 的隶属函数 $\mu(x)$ 为： $A^{C}(x)=1-A(x)$

Fuzzy Min Max Classifier

下面我们认识模糊最小最大分类器，这算是最早期的模糊神经网络：
fig4
假设我们有一个 $n$ 维的特征 $A_{h}$ ，我们有 $K = c$ 个判别函数（隶属度函数），其中，每个判别函数都描述了特征相对于该隶属度对应的模糊子集的置信度，置信度在 $[0, 1]$ 之间。我们相信在推断过程中，输出最大值的判别函数是最可信的，从而考虑将输入的特征分类到该模糊子集下。

可见，像小波网络一样，模糊神经网络在多层神经网络的基础上增加了一些可解释性，比如使用隶属度函数作为神经网络中的激活函数，并且每个神经元都有不同的隶属度计算方式，这让每个神经元天生就具有了更强的物理意义。

在过去，由于计算资源，训练算法的发展很薄弱，模糊神经网络的训练可能像深度信念网络那样困难，但现在我们可以使用反向传播就进行清晰的训练。

应用：基于模糊神经网络的水轮机调速器PID控制

我们可以将模糊神经网络与PID控制结合，将机组转速的误差和误差变化率作为网络的输入，经过网络的模糊推理向PID控制器输出三个参数 $K_{p},K_{i},K_{d}$ ，模型框架如下：
fig5

令输入变量为转速误差 $e$ 和误差变化率 $e_{c}$ ，输出变量为比例系数，积分系数，微分系数 $K_{p},K_{i},K_{d}$ 。确定输入和输出变量中间的词集（模糊子集）为： $X=\left\{NB,NM,NS,Z,PS,PM,PB\right\}$ 7 个词汇分别代表负大Negative Big、负中Negative Middle、负小Negative Small、零Zero、正小Positive Small、正中Positive Middle、正大Positive Big。

$e$ 和 $e_{c}$ 的论域均为： $\left\{-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6\right\}$ 其次，定义各个模糊子集的隶属函数为正态分布： $F(x)=exp[-\frac{(x-c)^{2}}{\sigma^{2}}]$ 其中， $x$ 为论域中的样本， $c,\sigma$ 分别为位置参数，尺度参数，两个参数可以取不同的值使得各个模糊子集的隶属函数不一样。

模糊神经网络包括5层，分别为输入层，隶属函数层，模糊推理层，归一化层，输出层。网络结构如下：
fig6

下面对每一层进行分析：

对于第一层即输入层，该层不做变换地输出2个节点，分别为转速误差和误差变化率： $x_{i}$ ，其中 $i = 1, 2$
第二层为隶属函数层，该层接收第一层的两个输出，通过前面定义的正态分布隶属函数，分别将转速误差和误差变化率两个变量映射到7个词汇上，即得到两组隶属度值（每组有7个模糊子集，每个模糊子集对应一个隶属度值）： $A_{i}^{j}(x_{i})=exp[-\frac{(x_{i}-c_{ij})^{2}}{\sigma_{ij}^{2}}]$ 其中， $c_{ij},\sigma_{ij}$ 分别为第 $i$ 个输入变量中第 $j$ 个词汇变量下的隶属函数的参数。
第三层为模糊推理层，该层的每一个输出节点对应一个模糊规则，该层的输出在于计算每个模糊规则的隶属度值（用两个变量下的隶属度乘积表示）： $\alpha_{l}=A_{1}^{i_{1}}(x_{1})\times A_{2}^{i_{2}}(x_{2})$ 其中， $i_{1}=i_{2}=\left\{1,2,3,4,5,6,7\right\},l=1,2,...,49$ ， $i_{1},i_{2}$ 为两个变量下的7个词汇索引，因此模糊规则有49种， $\alpha_{l}$ 代表每条模糊规则的隶属度。
第四层为归一化层，用于对49个模糊规则的隶属度值进行归一化；
最后一层为输出层，用于对得到的特征（49个模糊规则的隶属度值）进行线性变换，得到输出结果。