免点口几-CSDN博客

原创强化学习(4)：策略梯度Policy Gradient算法

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容，由作者按照自己的理解整理而成终于到Policy Gradient方法了！一、引言 reinforcement learning研究的是智能体agent与环境environment进行交互，在交互的过程中学习的问题，RL的根本目的是进行策略的优化，希望最终能够获得最优秀的策略。策略（policy）指的就是一个函数，输入一个当前状态state，输出一个动作action（的分布），相当于给agent指明了一条路线，告诉agent

2021-11-13 09:16:29 892

原创强化学习(3)：DQN及其变式

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容，由作者按照自己的理解整理而成本讲讨论著名的DQN算法（Deep Q-Networks Algorithm）一、对Q-Learning的简单复习对于参数化后的Q函数Qθ(s,a)Q_\theta(s,a)Qθ(s,a)，其自变量是当前所在的状态与进行的动作的组合，函数值代表这种组合对应的奖励值的大小。在进行学习迭代更新的时候采用逐步更新，逼近target的方式进行处理，其中target代表使用greedy方法，利用当前第

2021-11-13 09:11:15 1493

原创强化学习(2)：基于采样的model-free近似和拟合学习

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容，由作者按照自己的理解整理而成一、Sampling-Based Approximation 本篇文章主要研究基于采样的估计行为，作为一种统计意义上的操作，采样被普遍认为是机器学习中相当有用模拟统计量的一个手段，无论是在路径规划还是在什么一些别的领域，sample都是非常有用的～ 1. 回顾一下Q(s,a)Q(s,a)Q(s,a)函数 Q(s,a)Q(s,a)Q(s,a)被称为Q函数，也是RL中常用的一种价值函数，不同于状态价值

2021-11-13 08:56:44 1052

原创强化学习(1)：问题的概述和基本方法

强化学习(1)：问题的概述和基本方法本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容，由作者按照自己的理解整理而成一、介绍和Markov Decision Process Markov Decision Process（马尔科夫决策过程）指的是一种随机过程，是强化学习最重要的理论基础之一。简单的说，马尔科夫决策过程中最重要的对象有两个，一个是Agent，另一个是Environment。在强化学习的过程中，Agent和Environment不断进行互动，信息相互流动，互

2021-11-13 08:41:55 373

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 强化学习(4)：策略梯度Policy Gradient算法

原创 强化学习(3)：DQN及其变式

原创 强化学习(2)：基于采样的model-free近似和拟合学习

原创 强化学习(1)：问题的概述和基本方法

空空如也

空空如也

原创强化学习(4)：策略梯度Policy Gradient算法

原创强化学习(3)：DQN及其变式

原创强化学习(2)：基于采样的model-free近似和拟合学习

原创强化学习(1)：问题的概述和基本方法