笔记——马尔可夫决策过程

本文是关于马尔可夫决策过程(MDP)的学习笔记,介绍了MDP作为序贯决策的数学模型,其核心是马尔可夫性质。MDP包括智能体与环境两个交互对象,涉及状态、动作、策略、奖励和回报等五个要素。MDP过程中,智能体根据策略执行动作,环境状态变化并反馈奖励,形成持续交互。
摘要由CSDN通过智能技术生成

马尔可夫决策过程(MDP)

马尔可夫决策过程的基本概念,作学习笔记用,资料链接在文末

马尔可夫决策过程是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。

一、马尔可夫性质

当一个随机过程在给定现在状态以及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的,那么说此随机过程具有马尔可夫性质,具有马尔可夫性质的过程通常称之为马尔科夫过程。公式表示如下:

                              P[X(t+h)=y|X(s)=x(s),s\leq t]=P[X(t+h)=y|X(t)=x(t)],\forall h> 0

二、马尔可夫决策过程

 

MDP是在环境中模拟智能体的随机性策略(pol

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值