强化学习模型基础

最新推荐文章于 2023-08-04 00:38:22 发布

停工养老

最新推荐文章于 2023-08-04 00:38:22 发布

阅读量399

点赞数 1

分类专栏：强化学习文章标签：强化学习人工智能 python 算法深度学习

本文链接：https://blog.csdn.net/Explore_OuO/article/details/115565877

版权

强化学习专栏收录该内容

5 篇文章 7 订阅

订阅专栏

本文作者分享了自己对强化学习的理解，强调了平易近人的教程对于入门的重要性。文章介绍了强化学习的基本思路，包括Agent、Environment、Action、Reward等概念，并列举了强化学习的8个基本要素。同时，作者提到在学习过程中会使用PyTorch、TensorFlow等不同框架，并希望成为知识分享者。

摘要由CSDN通过智能技术生成

聊一聊我对强化学习的理解
对应的代码请访问我的GitHub：fxyang-bupt(可能你进去之后发现什么都没有，那是因为我注册了新的账号还在整理，这并不影响你先follow一下我的GitHub~)
目前正在把我的文字内容和代码整理成网络书籍的方式发布出来，敬请期待…

我很想把它做成一套简单易懂的白话系列，奈何做这种事真的不简单。我参考了很多资料，比如：
《白话强化学习与PyTorch》
《深入浅出强化学习：原理与入门》
《强化学习入门：从原理到实践》
“莫烦Python”
博客园 “刘建平Pinard” 的博客
北大 “ShusenTang” 的GitHub
……
这是一门比较前言的理论，目前正在发光发热。我并不推荐大家一开始就阅读大部头的《Reinforcement Learning》这本书，假期我花了一个月的时间去啃，效果并不好。反而是这种“平易近人”的教程更适合入门。不过各种“平易近人”的教程都会充斥着笔者自己的理解，这种事容易陷入到自嗨的怪圈，笔者自认为自己举了一个特别通俗的例子，而读者却一头雾水。
所以我把我在学习和实践过程中遇到的困惑，又做了二次解读的加工。有了这个系列的文章，希望能够有所贡献。成为帮助你入门的N多资料的其中之一。
我的代码用的框架比较杂，PyTorch TensorFlow1 TensorFlow2……都有。有人会在意TensorFlow2出来以后，1不是被淘汰了，为什么还要用？
5G都出了多长时间了，你那个卡的要死的4G手机换了吗？企业也是一样的。所以还是得用…

希望毕业后我也能成为像莫烦和 Charlotte77 一样的知识分享者~这是自己的一个小兴趣

强化学习的思路

在这里插入图片描述

Agent就是我们执行算法的个体，Agent可以做出决策，即选择一个合适的动作(Action) $A_t$ 。

Environment是我们要研究的环境，通过对环境的建模，得到它的状态模型。

当选择了动作 $A_t$ 之后，环境的状态就会由 $S_t$ 转换成 $S_{t+1}$ ，同时我们得到一个奖励 $R_{t+1}$ ，即。奖励值用来打赏你的这个行为。

如此反复下去，就是强化学习的思路。

强化学习的8个基本要素

不同的强化学习模型种要素并不相同，这8个要素是大多数强化学习模型的基本要素。

$t$ 时刻，环境的状态 $S_t$
$t$ 时刻，采取的动作 $A_t$
$t$ 时刻，在状态 $S_t$ 下执行 $A_t$ 得到对应的奖励值 $R_{t+1}$ ，奖励值会在 $t + 1$ 时刻得到
Agent根据状态 $S_t$ 选择动作 $A_t$ 的依据，称为行为策略(Policy) $\pi$ 。
价值函数，包括状态价值和(状态，行为)价值。
奖励衰减因子 $\gamma,\gamma\in[0,1]$ 。价值函数一般不只由当前延时奖励 $R_{t+1}$ 决定，还要考虑后续，表达了当前奖励和后续奖励的占比。
环境状态转移模型 $P_{ss'}^a$ ，在状态 $s$ 下采取动作 $a$ ，转移到下一个状态 $s^{'}$ 的概率。
探索率 $\epsilon$ 。在执行动作时，以概率 $\epsilon$ 选择当前最优选择之外的随机动作，以提高对环境的试探。