huibinny-CSDN博客

原创 David Silver强化学习笔记-Lecture 2: Markov Decision Processes

Lecture 2: Markov Decision Processes(马尔科夫决策过程) 一、Marokov Process （一）Introduction Introduction to MDPs 马尔可夫决策过程正式描述了强化学习的环境我们希望有一些对环境的描述。环境是完全可观测的当前状态完全特征化了过程被告知给agent的state在某种程度上特征化了真个环境展开的过程，环境的...

2019-11-25 10:09:38 756

原创 David Silver强化学习笔记-intro_RL

David Silver深度强化学习笔记-intro_RL 一、关于RL （一）强化学习的特征强化学习和其他机器学习的不同之处：没有监督者，只有一个reward标志反馈有延迟，不是马上得到时间很重要（序列）监督学习时将独立同分布的数据进行学习，而强化学习的数据是有序列的。 agent的actions影响着随后接收到的数据。我们需要应对的是一个动态系统，agent和外...

2019-11-22 12:43:02 351

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人