【算法】强化学习
文章平均质量分 93
静_流
这个作者很懒,什么都没留下…
展开
-
强化学习之无模型方法一:蒙特卡洛
无模型方法(model-free)无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。 由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布Pass′Pss′aP_{ss^{'}}^a和RasRsaR_s^a中进行采样。对于随机变量...原创 2018-07-30 17:23:03 · 6784 阅读 · 0 评论 -
强化学习之动态规划
动态规划(Dynamic Propramming)当一个精确的环境模型时,可以用动态规划去解决。总体来说,就是将一个问题分解成子问题,通过解决子问题来解决原问题。动态指针对序列问题,规划指优化,找到策略。 动态规划解决的问题具备两种性质:最优子结构 满足最优性原理最优的解可以被分解成子问题的最优解交叠式子问题 子问题能够被多次重复子问题的解要能够被缓存并再利用MDPs满...原创 2018-07-26 16:33:48 · 3809 阅读 · 0 评论 -
【强化学习】MDP案例
【机器人寻找金子案例】强化学习类文件grid_mdp.pyimport loggingimport numpyimport randomfrom gym import spacesimport gymlogger = logging.getLogger(__name__)class GridEnv(gym.Env): metadata = { 're...转载 2018-07-26 10:58:15 · 2439 阅读 · 0 评论 -
强化学习之马尔科夫过程
马尔可夫过程马尔可夫决策过程(Markov Decision Processes,MDPs)是对强化学习问题的数学描述。几乎所有的RL问题都能用MDPs来表述:最优控制问题可以描述为连续MDPs部分观测环境可以转化成POMDPs赌博机问题是只有一个状态的MDPs本文中介绍的MDPs是在全观测的环境下进行的!马尔科夫性如果在t时刻的状态StStS_t满足如下等式,那么...原创 2018-07-25 18:03:44 · 4975 阅读 · 0 评论 -
强化学习之概述
什么是强化学习? 面向智能体的学习–通过与一个环境进行交互来实现目标 通过试错和优化进行学习–用试错后的奖励(或惩罚)进行学习 强化学习 vs 其他机器学习机器学习监督学习:有即时标签的学习(如分类,回归等) 监督学习要求带标签的数据,这些数据是比较昂贵的 标注数据也是一门学问非监督学习:无标签学习(聚类问题等) 无标签数据的数量非常...原创 2018-07-23 15:40:47 · 5653 阅读 · 1 评论 -
强化学习之无模型方法二:时间差分
时间差分方法(TD)是强化学习中最核心的也是最新奇的方法,混合了动态规划(DP)和蒙特卡洛方法(MC) - 和MC类似,TD从历史经验中学习 - 和MDP类似,使用后继状态的值函数更新当前状态的值函数TD属于无模型方法,未知P和R,同时应用了采样和贝尔曼方程,可以从不完整的片段中学习,通过估计来更新估计时间差分评价时间差分策略评价算法目的:给定策略ππ\pi,求其对应的...原创 2018-08-14 23:51:55 · 3398 阅读 · 0 评论 -
强化学习中常用的随机策略
随机策略可以理解为是概率分布,常用的有以下几种:贪婪策略π∗(a|s)={1 if a=arga∈Amaxq∗(s,a)0 otherwiseπ∗(a|s)={1 if a=arga∈Amaxq∗(s,a)0 otherwise\pi_*(a|s)=\begin{cases}1 if a=arg_{a \in A} max q_*(s,a)\\0 otherwise\\...原创 2018-08-21 16:14:32 · 9677 阅读 · 2 评论