强化学习
文章平均质量分 96
饿了就干饭
经常更新NLP、深度学习相关内容,感兴趣的话可以关注哈~
展开
-
学习深度强化学习---第3部分----RL蒙特卡罗相关算法
在其他学科中的蒙特卡罗法是一种抽样的方法。如果状态转移概率是已知的,则是基于模型的方法。如果状态转移概率是未知的,则是免模型的方法。动态规划方法无法求解倒立摆问题,即无法处理没有状态转移概率的问题。蒙特卡罗法可以求解。什么叫估计量的无偏性?一致性?有效性?原创 2023-12-13 17:54:15 · 1075 阅读 · 0 评论 -
学习深度强化学习---第2部分----RL动态规划相关算法
态规划有两种思路:分治法和动态规划,目的是求解一个大问题。分治法分治法是将一个大问题分解成多个相互独立的子问题。然后再逐个解决每个子问题,最后将多个问题的结算结果c1、c2、…、cn进行总结,最后得到总问题的解。subp1:表示将大问题分成的子问题这些子问题的特点是这些子问题之间是相互独立的,也就是这些子问题是可以独立求解的。动态规划这个方法是将一个总问题进行逐步求解,先求解subp1,再求解subp2,…,最后求解subpn问题,原创 2023-12-11 00:10:47 · 188 阅读 · 0 评论 -
学习深度强化学习---第1部分----RL介绍、基本模型、Gym介绍
控制问题包含:动作(也称为控制)和状态。一个系统处于某个状态,当我们给它一个控制,这个控制就会使得这个系统发生变化,此时这个系统会转移到另一种状态。系统在每一个状态下对应哪一个动作或者控制是最优的,就是最优控制问题要解决的问题。最优控制问题主要使用动态规划法。延后的解释:例如象棋比赛中当前动作的获得的奖励只有当比赛结束之后才能获得。强化学习的每一步与时间顺序前后关系密切。原创 2023-12-05 18:08:37 · 183 阅读 · 0 评论