马尔科夫过程(MDP)—— 此去的强化学习笔记(二)

本文是作者跟随David Silver的强化学习课程所作的笔记,重点介绍了马尔科夫决策过程(MDP)的基础概念,包括马尔科夫过程、马尔科夫奖励过程和马尔科夫决策过程。文中详细阐述了马尔科夫属性、状态转移矩阵、奖励、回报、价值函数等核心概念,并探讨了MDP在强化学习中的应用。
摘要由CSDN通过智能技术生成

我是跟着David Silver 的视频和PPT(链接:http://davidsilver.uk/teaching/)来学习强化学习的,虽然很多人已经写了很多这方面的笔记了,但是我还是觉得应该学一点,记一点,因为我认为写是一个理清思路、加深理解的好方法。希望能坚持学下去,写下去。笔记主要是翻译并记录PPT中的内容,再加上一些个人的理解。

今天记录的是David课程中的第二讲。我硕士阶段主要是研究网络测量,一个比较小众的方向。进入博士阶段后,一直在思考如何使用强化学习来解决网络测量中的一些问题,以前遇到问题了就喜欢闷头干,往往是做了好长一段时间,才发现自己是在瞎碰。没有好的理论指导,科研效率是肉眼可见的低。所以,现在下定决心,一定要打好理论基础,脚踏实地。

David 强化学习课程第二讲:马尔科夫决策过程

马尔科夫决策过程(Markov decision process, MDP)可以说是强化学习的最基本条件了,判断一个问题能否用强化学习来解决,最直观的方法就是先看它是否是MDP的。那么,究竟什么是马尔科夫决策过程呢,我们一起来跟着David的课程做个了结吧。

我认为这一讲主要是要掌握一些基本概念,以及他们之间的关系,主要包括:

  1. 马尔科夫过程(Markov Processes):
    1. 马尔科夫属性
    2. 状态转移矩阵
    3. 什么是马尔科夫过程
  2. 马尔科夫奖励过程(Markov Reward Processes)
    1. 奖励(Reward),衰减因子 \gamma
    2. 回报(Return)
    3. 价值函数(Value Function)
  3. 马尔科夫决策过程(Markov Decision Processes)
    1. 状态价值函数
    2. 动作价值函数
    3. 二者的关系
  4. 优化方法
    1. 价值迭代
    2. 策略迭代
    3. Q-learning
    4. Sarsa

Introduction

  • MDP为强化学习提供了环境
  • 这个环境是完全可观察的:当前的状态可以完全的描述当前这一过程
  • 几乎所有的强化学习问题都可以转化为MDP问题
    • 连续的MDPs来解决优化控制问题
    • 部分可观察问题可以转化为MDPs
    • 老虎机问题是只有一个状态的MDP

一、马尔科夫过程(Markov Processes)

(一)马尔科夫属性(Markov Property)

当前状态已知的情况下,下一状态是与过去状态完全独立的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值