![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习RL
文章平均质量分 87
强化学习理论与实践
天狼啸月1990
舟遥遥以轻飏,风飘飘而吹衣。
展开
-
强化学习RL 01: Reinforcement Learning 基础
把Ut当作未来所有动作Ai和所有状态Si的一个函数,未来的动作和状态都有随机性,动作Ai的概率密度函数是policy function π,状态Si的概率密度函数是状态转移函数p,期望就是针对未来Si和Ai求得,出了St和At,其余的随机变量都是积分积掉,被积掉的是At+1,At+2等动作、St+1,St+2等动作,求期望得到的动作价值函数Qπ,其只跟当前动作at、状态st有关。Ut是个随机变量,它依赖于未来所有的动作At,At+1,At+2,...和未来所有的状态St,St+1,St+2,...原创 2023-02-27 15:13:40 · 607 阅读 · 0 评论 -
强化学习RL 02: Value-based Reinforcement Learning
DQN和TD更新算法。原创 2023-02-27 15:52:47 · 673 阅读 · 0 评论 -
强化学习RL 03: Policy-based Reinforcement Learning
用一个神经网络来近似策略函数π。原创 2023-02-27 18:17:26 · 478 阅读 · 0 评论 -
强化学习RL 04: Actor-Critic Algorithm
actor: 是policy network,通过生成动作概率分布,用来控制agent运动,类似“运动员”。critic: 是value network,用来给动作进行打分,类似“裁判”。原创 2023-02-28 15:00:34 · 742 阅读 · 0 评论 -
强化学习RL 05: Alpha Go、Alpha Zero
problem:会对未见过的操作懵逼,然后break down。原创 2023-02-28 18:26:43 · 422 阅读 · 0 评论 -
强化学习 model-01:CartPole
强化学习是一种机器学习范式,其核心思想是通过agent与环境的交互,以达到实现某种目标的目的。在强化学习中,agent根据环境的反馈(reward or penalty)来调整其行为,以使得未来的预期奖励最大化。强化学习在许多领域中都有广泛的应用,如游戏、机器人控制、金融交易。原创 2024-01-16 09:03:37 · 498 阅读 · 0 评论