
强化学习
文章平均质量分 82
聊一聊我对强化学习的理解
对应的代码请访问我的GitHub:fxyang-bupt
目前正在把我的文字内容和代码整理成网络书籍的方式发布出来,敬请期待…
停工养老
关注新号:西土城山羊卷 这个号将在2个月内完成迁移
展开
-
Q-Learning
Agent在探索中寻找最优策略的过程包括两部分:它在面对State的时候选择哪个Action去行动(选择的依据跟价值函数有关),这叫做行为策略。如何使用新得到的经验去更新价值函数,这叫做优化策略(注意这是个名词)。Q-Learning使用 ε\varepsilonε-贪婪法作为行为策略,使用贪婪法作为优化策略来更新Q表。Q-Learning算法概述Q-Learning算法的拓扑图如下,白色远点表示状态,黑色圆点表示状态-行为对(即在状态下执行动作)如上图,先基于状态StS_tSt,用 ε原创 2021-04-07 19:38:00 · 890 阅读 · 3 评论 -
[环境] OpenAI gym经典控制环境CartPole-v0 介绍
[环境]CartPole-v0关于此环境的介绍下面三篇就已经足够了,尤其是最后一篇gym GitHub的官方wiki。OpenAI Gym: the CartPole-v0 environmentOpenAI Gym 经典控制环境介绍–CartPole(倒立摆)_思绪无限的博客-CSDN博客_cartpoleopenai/gym...原创 2021-04-13 22:24:08 · 2301 阅读 · 3 评论 -
马尔科夫决策过程(MDP)
马尔可夫性系统的下一个状态只与当前状态有关。马尔可夫过程是一个二元组(S,P)(S,P)(S,P),SSS是有限状态集合,PPP是状态转移概率P=[P11⋯P1n⋮⋮Pn1⋯Pnn]P=\begin{bmatrix}P_{11} &\cdots&P_{1n}\\ \vdots&&\vdots\\P_{n1}&\cdots&P_{nn}\end{bmatrix}P=⎣⎢⎡P11⋮Pn1⋯⋯P1n⋮Pnn⎦⎥⎤如一个学生的状态S=娱乐,原创 2021-04-10 15:31:56 · 376 阅读 · 2 评论 -
[梳理]两种价值函数
聊一聊我对强化学习的理解对应的代码请访问我的GitHub:fxyang-bupt(可能你进去之后发现什么都没有,那是因为我注册了新的账号还在整理,这并不影响你先follow一下我的GitHub~)目前正在把我的文字内容和代码整理成网络书籍的方式发布出来,敬请期待…我很想把它做成一套简单易懂的白话系列,奈何做这种事真的不简单。我参考了很多资料,比如:《白话强化学习与PyTorch》《深入浅出强化学习:原理与入门》《强化学习入门:从原理到实践》“莫烦Python”博客园 “刘建平Pinar.原创 2021-04-10 15:24:04 · 3334 阅读 · 4 评论 -
强化学习模型基础
聊一聊我对强化学习的理解对应的代码请访问我的GitHub:fxyang-bupt(可能你进去之后发现什么都没有,那是因为我注册了新的账号还在整理,着并不影响你先follow一下我的GitHub~)目前正在把我的文字内容和代码整理成网络书籍的方式发布出来,敬请期待…我很想把它做成一套简单易懂的白话系列,奈何做这种事真的不简单。我参考了很多资料,比如:《白话强化学习与PyTorch》《深入浅出强化学习:原理与入门》《强化学习入门:从原理到实践》“莫烦Python”博客园 “刘建平Pinar.原创 2021-04-10 11:13:21 · 455 阅读 · 1 评论