FRL模糊强化学习
一句话解释:连续空间映射到离散空间下的强化学习
模糊逻辑(FL): 在强化学习问题中,将状态空间泛化,并产生连续动作的手段
模糊强化学习分为: Fuzzy Sarsa Learning(模糊Sarsa学习)、 Fuzzy Q-learning (FQL,模糊Q-learning) 、Fuzzy Actor-Critic learning (FACL)
可用于应对维度诅咒: 维度诅咒:Q-learning方法使用表格记录Q值,但在许多现实场景中,观察和行动空间是连续的,高维连续状态空间的表示很麻烦,这个问题被称为维度的诅咒。而应对维度诅咒的一个方式就是将连续空间泛化,即使用模糊逻辑。
ps:由于不是这个方向,在读论文的时候提到了一个模糊强化学习,在网上又搜不到相关解释,就去扒了扒相关论文粗略的了解了下,若有错误欢迎指正。
相关论文推荐
P. Y. Glorennec and J. Jouffe, “Fuzzy Q-learning,” in Proc. 6th IEEE Int.Conf. Fuzzy Systems, 1997.
Fuzzy Sarsa Learning and the proof of existence of its stationary points
上面三篇提出模糊强化学习概念,下面两篇为改进和应用
Online Tuning of Fuzzy Inference Systems Using Dynamic Fuzzy Q-Learning
Supervised fuzzy reinforcement learning for robot navigation
博客推荐
多智能体强化学习博弈系列(1)- 差分博弈和模糊系统 https://blog.csdn.net/yuuyuhaksho/article/details/87702177
多智能体强化学习博弈系列(2)- 模糊Q-Learning https://blog.csdn.net/yuuyuhaksho/article/details/87702919