强化学习
文章平均质量分 95
weixin_mm975247003
做有趣的事,提升自己不是内卷,不积跬步无以至千里!
展开
-
多臂老虎机理论系列
的内容来源于Russo和Van Roy (2014),他们改进了该方法以获得更好的上界,这些上界适用于特定类别的先验分布,包括线性和“广义线性”的平均回报向量,以及由高斯过程给出的先验。首先,定理基于之前定义的置信区间的属性(公式 3.14 和 3.15)以及置信半径(引用自公式 3.13),这些都符合引理 3.10 的条件,即这些条件对任何特定的先验分布都成立,只要这些分布拥有良好的置信界。这表明,随着时间的推移,汤普森采样方法能够在保持探索和利用之间的平衡的同时,有效地接近最优动作选择。原创 2024-03-05 23:33:21 · 926 阅读 · 0 评论 -
论文学习—Model-based Adversarial Meta-Reinforcement Learning
强化学习论文学习原创 2024-03-04 02:09:12 · 994 阅读 · 1 评论 -
多臂老虎机理论系列
Bayesian Bandits and Thompson Sampling3.1 Bayesian update in Bayesian bandits3.1.1 Terminology and notation3.1.2 Posterior does not depend on the algorithm3.1.3 Posterior as a new prior3.1.4 Independent priors3.2 Algorithm specification and implementationB原创 2024-02-27 16:24:01 · 951 阅读 · 0 评论 -
多臂老虎机理论系列
[多臂老虎机理论](Lower bounds for non-adaptive exploration)原创 2024-01-26 19:53:44 · 868 阅读 · 2 评论 -
强化学习井字棋游戏
强化学习井字棋游戏实现 这是一个简单的强化学习例子Tic-Tac-Toe。在一个3×3的九宫格里,两个人人论留下,直到有个人的棋子满足三个一横一竖或者一斜,赢得比赛游戏结束,或者九宫格填满也没有人赢,则和棋。 程序实现用两个电脑选手训练模型,然后可以让任何机器对战。 下面进行对代码介绍:import numpy as npimport pickleBOARD_ROWS = 3...原创 2020-01-14 17:09:46 · 2754 阅读 · 1 评论 -
强化学习——蛇棋游戏策略迭代实现
强化学习——蛇棋游戏策略迭代实现1"表格式"Agent2、对游戏的评估3、策略迭代3.1、策略评估3.2、策略改善1"表格式"Agent 在之前的文章的基础之上,本文对搭建的蛇棋游戏采用策略迭代的方法实现。策略迭代时,环境的状态转移概率需要对Agent公开,这样Agent就能利用这些信息做出更好的决策。对于蛇棋来说,如果知道骰子的每一面朝上的概率是均匀的,以及棋盘上的每一个梯子都是可见的,就...原创 2019-10-05 18:16:11 · 1050 阅读 · 0 评论 -
强化学习——蛇棋游戏gym环境搭建
强化学习——蛇棋游戏gym环境搭建 学习强化学习精要核心算法与Tensorflow实现这本书中,关于蛇棋游戏利用gym搭建。游戏的规则非常简单,详细请参考冯超的书<<强化学习精要核心算法与Tensorflow实现>>。下面是游戏的具体实现:import numpy as npimport gymfrom gym.spaces import Discrete...原创 2019-10-05 13:13:28 · 2398 阅读 · 0 评论 -
基于值函数逼近的强化学习方法
基于值函数逼近的强化学习方法1.1、表格型强化学习方法1.2、值函数逼近方法理论1.2.1 值函数逼近方法的分类1.2.2、值函数逼近和表格型强化学习方法的比较1.3、参数化逼近1.4、增量式学习方法1.4.1、基于蒙特卡罗方法的函数逼近1.4.2、基于时间差分法的值函数逼近1.4.3、值函数逼近的形式1.5、批量式方法1.1、表格型强化学习方法 状态值函数可以利用动态规划法,MC或者TD的...原创 2019-09-29 17:43:32 · 1423 阅读 · 0 评论 -
强化学习:基于模型的动态规划
强化学习:基于模型的动态规划方法1、最优价值函数2、动态规划方法2.1、策略迭代2.2、值迭代1、最优价值函数最优状态价值函数: 考虑到这个状态下,可能发生的所有后续动作,并且都挑最好的动作来执行的情况下,这个状态的价值。最优状态动作值函数: 在这个状态下执行了一个特定的动作,然后考虑到执行这个动作后有可能处于的后续状态并且在这些状态下总是选取最好的动作来执行所得到的长期价值。Bell...原创 2019-09-12 15:43:54 · 756 阅读 · 0 评论 -
强化学习:机器人找金币MDP仿真环境搭建
强化学习原理入门-Day2:机器人找金币以机器人找金币为例子,构建其MDP框架。如图所示,网格世界中一共有8个状态,状态6和状态8是死亡区域,状态7是金币区域。机器人的初始位置为网格世界中的任意一个状态,机器人从初始状态出发寻找金币,机器人每探索一次,进入死亡区域或者找到金币,本次探索完毕。...原创 2019-08-29 16:53:00 · 1513 阅读 · 7 评论 -
强化学习(2):Bellman方程
强化学习原理入门-Day2:Bellman方程1、状态值函数的计算2、状态行为值函数3、最优价值函数3.1、最优状态值函数3.2、最优状态行为值函数1、状态值函数的计算1)某个状态的值函数等于该状态下所有状态行为值函数qπ(s,a)q_\pi(s,a)qπ(s,a)的加权和,即:vπ(s)=Eπ[∑a∈Aπ(a∣s)qπ(s∣a)]v_{\pi}(s)=E_\pi[\sum_{a\in A}...原创 2019-06-20 15:31:11 · 7328 阅读 · 0 评论 -
强化学习
强化学习原理入门-Day11、强化学习概念2、特点3、马尔科夫决策过程3.1、马尔科夫性3.2、马尔科夫过程3.3、马尔科夫决策过程1、强化学习概念 强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的奖励。学习者不被高数采取哪一个行动,而是必须通过尝试找出哪些行为能带来最大的回报。action不仅影响立即回报,而且还会影响下...原创 2019-06-19 21:52:32 · 645 阅读 · 0 评论