唐宇迪强化学习笔记之项目实战(flabby bird)

最新推荐文章于 2024-08-10 08:18:21 发布

置顶

物理小乾乾

最新推荐文章于 2024-08-10 08:18:21 发布

阅读量3.6k

点赞数 3

分类专栏：深度学习笔记

本文链接：https://blog.csdn.net/liushao123456789/article/details/78961077

版权

本文介绍了强化学习的基本概念，包括马尔科夫决策过程和关键元素，强调了学习过程中的状态观测、动作选择与状态转移。接着详细阐述了强化学习的步骤和价值函数，特别是贝尔曼方程的应用。最后，通过Deep Q Network (DQN)架构讲解了一个项目实战——使用TensorFlow实现的Flappy Bird游戏智能体。

摘要由CSDN通过智能技术生成

强化学习：

学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为，必须在尝试了之后才能发现哪些行为会导致奖励的最大化，当前的行为可能不仅仅会影响即时奖励，还会影响下一步的奖励以及后续的所有奖励。

强化学习的五个关键字：

强化学习的学习过程：总的来说就是先观测，再行动，再观测。如下图所示：

以下是强化学习的原理图：

马尔科夫决策要求：

1.能够检测到理想的状态
2.可以多次尝试
3.系统的下个状态只与当前状态信息有关，而与更早之前的状态无关
在决策过程中还和当前采取的动作有关

马尔科夫决策过程由五个元素构成：

S:表示状态集（states）
A:表示一组动作（actions）
P:表示状态转移概率 ${P_{sa}}$ ,表示在当前s ∈ S状态下，经过a ∈ A作用后，会转移到的其他状态的概率分布情况在状态s下执行动作a，转移到 $s'$ 的概率可以表示为 ${\rm{p}}\left( {s'|s,a} \right)$
R: 奖励函数（reward function）表示 agent 采取某个动作后的即时奖励
y：折扣系数意味着当下的 reward 比未来反馈的 reward 更重要 $\sum\limits_{t = 0}^\infty {{\gamma ^t}} R\left( {{s_t}} \right)$ $0 \le \gamma \le 1$

强化学习步骤：

1.智能体初始状态为S0
2.选择一个动作a0
3.按概率转移矩阵Psa转移到了下一个状态S1
然后。

这里写图片描述

状态价值函数： $v\left( s \right) = E\left[ {{U_t}|{S_t} = s} \right]$ ,t 时刻的状态 s 能获得的未来回报的期望,价值函数用来衡量某一状态或状态-动作对的优劣价 ,累计奖励的期望。
最优价值函数：所有策略下的最优累计奖励期望 v∗(s)=maxπvπ(