RL Learning
文章平均质量分 96
免点口几
这个作者很懒,什么都没留下…
展开
-
强化学习(4):策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了!一、引言reinforcement learning研究的是智能体agent与环境environment进行交互,在交互的过程中学习的问题,RL的根本目的是进行策略的优化,希望最终能够获得最优秀的策略。策略(policy)指的就是一个函数,输入一个当前状态state,输出一个动作action(的分布),相当于给agent指明了一条路线,告诉agent原创 2021-11-13 09:16:29 · 639 阅读 · 0 评论 -
强化学习(3):DQN及其变式
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成本讲讨论著名的DQN算法(Deep Q-Networks Algorithm)一、对Q-Learning的简单复习对于参数化后的Q函数Qθ(s,a)Q_\theta(s,a)Qθ(s,a),其自变量是当前所在的状态与进行的动作的组合,函数值代表这种组合对应的奖励值的大小。在进行学习迭代更新的时候采用逐步更新,逼近target的方式进行处理,其中target代表使用greedy方法,利用当前第原创 2021-11-13 09:11:15 · 1254 阅读 · 0 评论 -
强化学习(2):基于采样的model-free近似和拟合学习
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成一、Sampling-Based Approximation本篇文章主要研究基于采样的估计行为,作为一种统计意义上的操作,采样被普遍认为是机器学习中相当有用模拟统计量的一个手段,无论是在路径规划还是在什么一些别的领域,sample都是非常有用的~1. 回顾一下Q(s,a)Q(s,a)Q(s,a)函数Q(s,a)Q(s,a)Q(s,a)被称为Q函数,也是RL中常用的一种价值函数,不同于状态价值原创 2021-11-13 08:56:44 · 915 阅读 · 0 评论 -
强化学习(1):问题的概述和基本方法
强化学习(1):问题的概述和基本方法本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成一、介绍和Markov Decision Process Markov Decision Process(马尔科夫决策过程)指的是一种随机过程,是强化学习最重要的理论基础之一。简单的说,马尔科夫决策过程中最重要的对象有两个,一个是Agent,另一个是Environment。在强化学习的过程中,Agent和Environment不断进行互动,信息相互流动,互原创 2021-11-13 08:41:55 · 245 阅读 · 0 评论