【详解+推导!!】马尔可夫决策过程-CSDN博客 # MDP是RL的理论基础 马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP得名于俄国数学家