自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 强化学习(4):策略梯度Policy Gradient算法

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成终于到Policy Gradient方法了!一、引言reinforcement learning研究的是智能体agent与环境environment进行交互,在交互的过程中学习的问题,RL的根本目的是进行策略的优化,希望最终能够获得最优秀的策略。策略(policy)指的就是一个函数,输入一个当前状态state,输出一个动作action(的分布),相当于给agent指明了一条路线,告诉agent

2021-11-13 09:16:29 600

原创 强化学习(3):DQN及其变式

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成本讲讨论著名的DQN算法(Deep Q-Networks Algorithm)一、对Q-Learning的简单复习对于参数化后的Q函数Qθ(s,a)Q_\theta(s,a)Qθ​(s,a),其自变量是当前所在的状态与进行的动作的组合,函数值代表这种组合对应的奖励值的大小。在进行学习迭代更新的时候采用逐步更新,逼近target的方式进行处理,其中target代表使用greedy方法,利用当前第

2021-11-13 09:11:15 1233

原创 强化学习(2):基于采样的model-free近似和拟合学习

本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成一、Sampling-Based Approximation本篇文章主要研究基于采样的估计行为,作为一种统计意义上的操作,采样被普遍认为是机器学习中相当有用模拟统计量的一个手段,无论是在路径规划还是在什么一些别的领域,sample都是非常有用的~1. 回顾一下Q(s,a)Q(s,a)Q(s,a)函数Q(s,a)Q(s,a)Q(s,a)被称为Q函数,也是RL中常用的一种价值函数,不同于状态价值

2021-11-13 08:56:44 874

原创 强化学习(1):问题的概述和基本方法

强化学习(1):问题的概述和基本方法本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成一、介绍和Markov Decision Process Markov Decision Process(马尔科夫决策过程)指的是一种随机过程,是强化学习最重要的理论基础之一。简单的说,马尔科夫决策过程中最重要的对象有两个,一个是Agent,另一个是Environment。在强化学习的过程中,Agent和Environment不断进行互动,信息相互流动,互

2021-11-13 08:41:55 213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除