强化学习大家这几年应该不陌生,从AlphaGo到AlphaZero让大家见识到了强化学习的力量。我们今天给大家介绍一个在强化学习中核心思维马尔可夫决策过程(MDP)。马尔科夫决策过程是基于马尔科夫论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性的动态规划相结合的产物,故又称马尔科夫型随机动态规划,属于运筹学中数学规划的一个分支。今天我们给大家介绍下马尔可夫决策过程中用到一些算法以及这些算法在R语言中如何实现的。
首先我们需要安装一个结合的工具包MDPtoolbox。安装步骤我们不赘述了,接下来看下里面的主要的函数:
首先我们看下基础的函数:
1. mdp_example_forest创建简单的森林管理MDP模型。参数默认设置
转移概率(P)和奖励矩阵(R)具体形式:
实例代码: