![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
大风起兮借天时
这个作者很懒,什么都没留下…
展开
-
强化学习-马尔科夫决策过程
马尔科夫决策过程-MDP 由五元组组成,该过程并不是自发的按照某个概率进行转移,而是通过选择某个动作来进行转移 ; 组成 S,R,A,P,γ(折扣因子)P=S×A×S P(s,a,s')表示状态s下执行动作a到达状态s‘的概率 R=S×A 即时奖励函数 ...原创 2020-01-19 08:41:34 · 193 阅读 · 0 评论 -
强化学习概念介绍
强化学习本质 是智能体(agent)以试错的方式进行学习,通过与环境进行交互获得奖励指导行为,目标是寻找一个最优策略,使智能体获得最大的奖励。(注意,agent的动作的影响不止立即获取得到的奖励,而且还影响接下来的动作和最终的奖励) 关键要素 envirnment ,reward,action,state,policy(确定策略和随机策略:以一定的概率执行某一动作) 具体策略 把用来指导个体产生于...原创 2020-01-05 13:06:02 · 436 阅读 · 0 评论