读书笔记:多智能体机器学习(三)

微分博弈

One playerMany players
StaticMathematical programming(Static) game theory
DynamicOptimal control theoryDynamic/differential game theory

模糊系统 — 模糊推理系统(FIS)

模糊系统的用例场景:

  • 飞行器/航天器:飞行控制、引擎控制、航空电子系统、故障诊断、导航和卫星姿态控制;
  • 机器人:位置控制与路径规划;

模糊集

The universe of discourse X X X is defined as a collection of element x x x that have the same characteristics.

X X X 中的模糊集 A A A 可表示为 A = { ( x , μ A ( x ) ) ∣ x ∈ X } . A = \{(x, \mu_{A}(x)) \mid x \in X\}. A={(x,μA(x))xX}. 此处的 $ \mu_{A}(x)$ 是模糊集的隶属函数(MF,membership function)。

  • MF可在 0 ∼ 1 0 \sim 1 01 取值;当其取0(或者1)时,成其对应的模糊集为空集(或者全集);
  • 模糊集理论中的并集和交集运算定义如下: μ A ∪ B ( x ) = max ⁡ [ μ A ( x ) , μ B ( x ) ] , μ A ∩ B ( x ) = min ⁡ [ μ A ( x ) , μ B ( x ) ] ; \begin{aligned} \mu_{A \cup B} (x) & = \max[\mu_{A} (x), \mu_{B} (x)],\\ \mu_{A \cap B} (x) & = \min[\mu_{A} (x), \mu_{B} (x)]; \end{aligned} μAB(x)μAB(x)=max[μA(x),μB(x)],=min[μA(x),μB(x)];

模糊规则

IF-THEN 模糊规则(Fuzzy IF-THEN rules): R l : IF  x  is  A  THEN  y  is  B . \mathcal{R}_{l}: \text{IF } x \text{ is } A \text{ THEN } y \text{ is } B. Rl:IF x is A THEN y is B. 此处,

  • x , y x, y x,y 称为模糊变量或语言变量(fuzzy or linguistic variables);
  • 集合 A , B A, B A,B 是在 X , Y X, Y X,Y 中定义的模糊集;
  • x  is  A x \text{ is } A x is A 称为前件或前提(antecedent or premise); y  is  B y \text{ is } B y is B 称为后件或结论(consequence or conclusion)。

Takagi-Sugeno (TS) 模糊系统中采用的IF-THEN 模糊规则给出了从输入模糊集到输出线性函数之间的映射关系,具体表现为 R l : IF  x 1  is  A 1 l  AND  x 2  is  A 2 l  AND  ⋯  AND  x j  is  A j l  THEN  f l = K 0 l + ⋯ + K j l x j . \mathcal{R}_{l}: \text{IF } x_{1} \text{ is } A_{1}^{l} \text{ AND } x_{2} \text{ is } A_{2}^{l} \text{ AND } \cdots \text{ AND } x_{j} \text{ is } A_{j}^{l} \text{ THEN } f_{l} = K_{0}^{l} + \cdots + K_{j}^{l} x_{j}. Rl:IF x1 is A1l AND x2 is A2l AND  AND xj is Ajl THEN fl=K0l++Kjlxj. 此时, f l f_{l} fl 为规则 l l l 的输出函数, K n l K_{n}^{l} Knl 是后件参数。
在这里插入图片描述

模糊推理机

模糊推理机(fuzzy inference engine)用于将模糊规则库中的IF-THEN模糊规则组合成从模糊集 A ′ ⊂ X A^{\prime} \subset X AX 到模糊集 B ′ ⊂ Y B^{\prime} \subset Y BY 的映射。

直积推理机(product inference engine)
  • 基本运算
运算常用算子
μ A ∩ B ( x ) = T ( μ A ( x ) , μ B ( x ) ) ≜ μ A ( x ) ∗ μ B ( x ) \begin{aligned} \mu_{A \cap B}(x) & = T(\mu_{A}(x), \mu_{B}(x)) \\ & \triangleq \mu_{A}(x) \ast \mu_{B}(x) \end{aligned} μAB(x)=T(μA(x),μB(x))μA(x)μB(x) Minimum:  T min ⁡ ( a , b ) = min ⁡ ( a , b ) ; Algebraic product:  T a p ( a , b ) = a b . \begin{aligned} \text{Minimum: } T_{\min}(a, b) & = \min(a, b); \\ \text{Algebraic product: } T_{ap}(a,b) & = ab. \end{aligned} Minimum: Tmin(a,b)Algebraic product: Tap(a,b)=min(a,b);=ab.
μ A ∪ B ( x ) = S ( μ A ( x ) , μ B ( x ) ) ≜ μ A ( x ) ∔ μ B ( x ) \begin{aligned} \mu_{A \cup B}(x) & = S(\mu_{A}(x), \mu_{B}(x)) \\ & \triangleq \mu_{A}(x) \dotplus \mu_{B}(x) \end{aligned} μAB(x)=S(μA(x),μB(x))μA(x)μB(x) Maximum:  S max ⁡ ( a , b ) = max ⁡ ( a , b ) ; Algebraic sum:  S a p ( a , b ) = a + b − a b . \begin{aligned} \text{Maximum: } S_{\max}(a, b) & = \max(a, b); \\ \text{Algebraic sum: } S_{ap}(a,b) & = a + b - ab. \end{aligned} Maximum: Smax(a,b)Algebraic sum: Sap(a,b)=max(a,b);=a+bab.
  • Mamdani implication 用于解释模糊关系 μ R ( x , y ) = μ A × B ( x , y ) = μ A → B ( x , y ) = μ A ( x ) ∗ μ B ( y ) . \mu_{R}(x, y) = \mu_{A \times B} (x, y) = \mu_{A \to B} (x, y) = \mu_{A}(x) \ast \mu_{B}(y). μR(x,y)=μA×B(x,y)=μAB(x,y)=μA(x)μB(y).
  • 广义假言推理(generalized modus ponens) premise 1 (rule):  if  x  is  A  then  y  is  B premise 2 (fact):  x  is  A ′ conclusion:  y  is  B ′ . \begin{aligned} \text{premise 1 (rule): } & \quad \text{if } x \text{ is } A \text{ then } y \text{ is } B \\ \text{premise 2 (fact): } & \quad x \text{ is } A^{\prime} \\ \text{conclusion: } & \quad y \text{ is } B^{\prime}. \end{aligned} premise 1 (rule): premise 2 (fact): conclusion: if x is A then y is Bx is Ay is B. 基于此,模糊集 B ′ B^{\prime} B 被推断为 μ B ′ ( y ) = sup ⁡ x ∈ X T [ μ A ′ ( x ) , μ A → B ( x , y ) ] . \mu_{B^{\prime}}(y) = \sup_{x \in X} T[\mu_{A^{\prime}}(x), \mu_{A \to B}(x, y)]. μB(y)=xXsupT[μA(x),μAB(x,y)].

模糊与去模糊

  • 模糊系统

在这里插入图片描述

  • 模糊化接口:将具有精确值的输入转化为隶属函数中的隶属度;
  • 去模糊化:将模糊度转化为精确量。常用加权平均去模糊法,即 f = ∑ l = 1 M ( ∏ j = 1 J μ A j l ( x j ) ) f l ∑ l = 1 M ( ∏ j = 1 J μ A j l ( x j ) ) , f = \frac{\sum_{l = 1}^{M} \left(\prod_{j = 1}^{J} \mu^{A_{j}^{l}} (x_{j})\right) f_{l}}{\sum_{l = 1}^{M} \left(\prod_{j = 1}^{J} \mu^{A_{j}^{l}} (x_{j})\right)}, f=l=1M(j=1JμAjl(xj))l=1M(j=1JμAjl(xj))fl, 其中, J J J 是输入变量个数; M M M 为规则个数。

模糊学习

将模糊系统与Q学习等相关机器学习方法结合,可用降低处理复杂度以及避免维数灾难。

群体智能(未来趋势?)

  • (早期)遗传规划:合作解决问题的能力;
  • 主要思想: 个体可通过观察其他个体的行为而直接从环境中获取信息的一种协同机制。
    • 通信带宽减少;
    • 环境表征很重要;
    • 传感器是关键硬件技术。

环境表征

环境表征的方式对于采用何种技术进行控制、如何利用博弈论实现回报具有很大影响;为了减少智能体的计算量,环境可由 co-fields 技术进行表征。

对于每一个智能体,按照其感知的对象创建势场 F T = ∑ attractive f i + ∑ replusive f j . F_{\text{T}} = \sum_{\text{attractive}} f_{i} + \sum_{\text{replusive}} f_{j} . FT=attractivefi+replusivefj.

性格特征

一般假设所有智能体在初始配置与能力是相同的。设置 γ i \gamma_{i} γi 为性格特征,即面对环境变化时的个人意向。对应性格特征有回报函数。

个人理解:智能体模仿人类行为,如面对意外时,有些倾向于个体保护,有些倾向于群体保护,有些倾向于不动产保护;如果根据现场情形,部署合理比例的智能体可获得最大收益。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值