强化学习
文章平均质量分 79
little_miya
这个作者很懒,什么都没留下…
展开
-
强化学习之赌徒问题
前言在之前的博文中,有详细说明MDP。本文用一个简单易懂的赌徒问题,作为例子,说明如何实现MDP的相关算法。如何求解出最优策略。1. 问题描述赌徒下注猜测一系列抛硬币的结果。如果正面朝上,则他获得该次下注的钱。如果背面朝上,则失去这一次下注的钱。当赌徒获利100元,或者输光的时候,游戏结束。2. 问题建模该问题可以表述为非折扣的分幕式有限MDP。状态S:赌徒的赌资 S ∈\in∈{1,2,3,…99}动作Action: 赌徒下注的金额 a∈\in∈{0, 1, … , min(s, 100原创 2021-09-02 11:59:53 · 1972 阅读 · 0 评论 -
自定义构建用于强化学习的自动驾驶仿真场景highway-env
本文基于前几篇对highway场景的介绍,来说明如何实现自定义仿真场景。1. set up files定义自己的Env.py,继承AbstractEnv抽象类中的几个重点函数:default_config():配置文件的载入define_spaces():选择observation和action类型step():按照策略更新频率执行actionrender():渲染整个环境2. create the scene首先创建RoadNetwork对应method:YourEnv._make原创 2021-05-09 17:20:32 · 2512 阅读 · 1 评论 -
用于强化学习的自动驾驶仿真场景highway-env(3): rewards,graphics
在用于强化学习的自动驾驶仿真场景highway-env(2): obs,action,dynamics中,我们详细说明仿真环境中的环境如何构建, 车辆的action都有哪些,如何对车辆进行运动学建模以及进行相应的横纵向控制。本文,我们来说明用于强化学习的奖励机制,以及整个仿真环境构建的图形学基础。I、RewardsII、Graphics...原创 2021-05-09 14:12:13 · 2572 阅读 · 2 评论 -
用于强化学习的自动驾驶仿真场景highway-env(2): obs,action,dynamics
在用于强化学习的自动驾驶仿真场景highway-env(1)中,我们简要说明如何使用该仿真场景。本文重心为关键的场景配置说明。I、Observation所有的环境都包含观测模型。可以通过config来配置对应模型。观测就是使用一种合适的数学模型将周围交互环境表征出来。对应到强化学习中的state!比如car的位置朝向起点、终点等特征。1. kinematic最常用的一种表征环境的形式。通过list的形式,将所有的vehicle的坐标的速度表示出来。形如:上表中共包含四个feature原创 2021-05-07 19:28:00 · 4326 阅读 · 4 评论 -
用于强化学习的自动驾驶仿真场景highway-env(1)
在强化学习过程中,一个可交互,可定制,直观的交互场景必不可少。最近发现一个自动驾驶的虚拟环境,本文主要来说明下如何使用该environment具体项目的github地址一、 定制环境quickly experience如下代码可以快速创建一个envimport gymimport highway_envfrom matplotlib import pyplot as pltenv = gym.make('highway-v0')env.reset()for _ in range(原创 2021-05-06 17:30:20 · 12624 阅读 · 26 评论 -
强化学习(1): 概述
一、DRL问题描述算法定义:强化学习算法是在不确定环境中,通过与环境的不断交互,来不断优化自身策略的算法。算法特点:数据非独立同分布:agent的行为会影响后续的数据分布没有绝对正确的标签,无法立即获得反馈具有超越人类先验知识的表现强化学习问题定义在马尔可夫决策过程之上。一个MDP是<S,A,R,P,ρ0><S,A,R,P,\rho_0><S,A,R,P,ρ0>的五元组。关于马尔可夫决策模型,我们详细参见博客:link二、算法分类1. 大分类原创 2021-04-12 19:00:59 · 1081 阅读 · 1 评论 -
强化学习(2): 马尔可夫过程
一、马尔可夫性其假设未来的状态仅取决与当前的状态。过去与未来无关。P[St+1∣St]=P[St+1∣S1,...,St]P[S_{t+1}|S_t]=P[S_{t+1}|S_1,...,S_t]P[St+1∣St]=P[St+1∣S1,...,St]二、马尔可夫过程马尔可夫过程是满足马尔可夫性的随机过程,由二元组M=(S,P)M=(S,P)M=(S,P)组成。SSS表示有限状态集合;PPP表示状态转移概率矩阵。如下图所示的一个马尔可夫过程:对应的状态转移矩阵为:根据是否原创 2021-04-13 16:20:44 · 1850 阅读 · 0 评论 -
强化学习常用的开源框架、库与环境
1. GymopenAI出品。里面有游戏、机器人、交互等强化学习的应用。github地址官网地址与gazebo的接口:github: gym-gazebo2. Baseline提供强化学习算法的高质量实现。github地址3. pytorch中的例子https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html4. RLlibgithub地址5. keras-rlgithub地址6. tens原创 2021-04-12 15:29:04 · 3651 阅读 · 0 评论