![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DRL
文章平均质量分 96
Mia_compiling
邮箱1138505254@qq.com 欢迎交流!
展开
-
阅读文献——各种 gradient descent 方法
文献链接:An overview of gradient descent optimization algorithms我一直对于 gradient descent 的机制没有搞透,就很好奇这梯度到底怎么搞的。(我觉得关键是因为我高数学的太水,学梯度的时候没有用非数学的想法去理解它)先又重复一遍老内容:Batch Gradient Descent也就是最朴素的GD,就真的很朴素:θ = θ −η∇θJ(θ)\theta~=~\theta~-\eta\nabla_{\t原创 2020-05-19 10:25:47 · 206 阅读 · 0 评论 -
第一次比较顺利地阅读英文文献(课堂记录)——关于gradient descent 的介绍
这次的阅读比较顺利,不知道是因为原文因为是课堂记录所以比较简单还是在下的水平确实提高了。总之开心!原文链接:这是一篇stanford的计算机视觉课程课程记录,我一看教授是李飞飞,果然是斯坦福啊,我也想去斯坦福。一些学术名词当然了,英文文献最大的障碍就是一些专有名词的理解,下面我列一下:convex function 凸函数,就是初中还是高中学的那个。(其实看形状更像是凹的……注意一下嗯)convex set 就是凸数集,就是说,在之中的任意两个数连接起来的线段,线段上的点都包含在这个集合中。也原创 2020-05-16 10:55:31 · 318 阅读 · 0 评论 -
DRL(八)—— Monte Carlo Tree Search (MCTS)
一个比较有意思的在离散情况下的 planning 方式。之所以叫做tree search,我觉得就是因为这种方法就是像树杈一样从根部到树叶不断地搜索。就像下图这样:要注意的是:每个节点的含义,并不是每个state,而是采取某个特定的action后到达的state,这个state可以是不同的。比如说,从s1s_1s1开始,我们如果执行action a1 = 0a_1~=~0a1 = 0,如图所示就会到达左边的s2s_2s2,只要执行action a1&n原创 2020-05-14 22:50:39 · 306 阅读 · 0 评论 -
DRL(七)—— Cross Entropy Method
这一讲是关于 model based 的情况的。首先熟悉几个概念吧。open-loop & close-loop**close-loop: ** 智能体在与环境交流的时候,每观察到一个observation(也就是每一个state)都会进行一次动作的选取。**open-loop: ** 智能体在和环境交流的时候,观察到一个observation(st),会选择一连串的动作[a1, a2, ... ..., aT][a_1,~a_2,~...~...,~原创 2020-05-14 16:47:16 · 425 阅读 · 2 评论 -
DRL(六)——高级策略梯度
这一讲主要在讲policy gradient,注意,教授经常提到的horizon,就是11−γ1\over1-\gamma1−γ1 , 就是∑tγt (t starts from 0)\sum_t\gamma^t~~(t~starts~from~0)∑tγt (t starts from 0),这个求和的结果是11−γ1\over1-\gamma1−γ1 。(我还不是很明白这个是在干嘛……).原创 2020-05-11 21:04:57 · 179 阅读 · 0 评论 -
DRL(五)——DDPG
在我的笔记DRL(四)——value function中,大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。为什么要提出DDPG呢?因为不管是DQN也好,DDQN也好,都是离散动作的,就是说,action是有限的。然而很多时候action都是连续的,这时候就需要新的方法了。在连续动作空间中怎样选择最优action呢?我们知道,在离散动作的Q Le...原创 2020-05-07 21:56:46 · 342 阅读 · 0 评论 -
DRL(四)——Value Function
感觉这一讲的内容大多都在复习之前我在RL里学过的内容,而且我发现,相比于David Silver 的强化学习内容,这个伯克利的DRL课程顺序刚好相反。RL是由表格型开始,讲了V(s) 和 Q(s, a),之后再讲的Function approximator,而DRL是先Policy Gradient 然后才提到Q Function。虽然内容都差不多,但是我还没明白不同的顺序是否侧重点不同,而两...原创 2020-05-06 22:45:43 · 921 阅读 · 0 评论 -
DRL(二)—— RL简介
RL StructureRL中基本包括三个部分,如下图:Model-Based RL在model-based RL里,绿格子里是预判下一个状态St+1。橙色格子依然是产生样本,绿色格子是利用这些样本去产生一个fφ,利用这个函数,可以预测下一个状态。用样本使这个函数越来越拟合。这样可以得到一个确定的policy,a deterministic policy,在确定的环境中可以工作的较好,...原创 2020-04-20 13:55:05 · 1907 阅读 · 0 评论 -
DRL(一)——Supervised Learning and Imitation
写在前面今天开始学习DRL了,其实RL还没完全看完……大概总结一下感觉这节课讲的内容是比较初级的一些方法,从标题就看得出来,Supervised Learning,和 Imitation。教授先是讲了imitation,就是通过人类的training,建立data,然后智能体用这个data来模仿。这样当然有很多问题,比如training中的情况可能不会包含所有的情况,总是会有新的情况出现;...原创 2020-04-16 22:46:30 · 197 阅读 · 0 评论 -
DRL(三)——Policy Gradient
这个策略梯度相关的知识我在 David Silver 的强化学习课程里学习过了已经,再看一遍这个伯克利的,好像还挺重要,marshal学长说的。推导过程这个过程也大致看过首先是使用了一个log函数的性质,见上图,然后就可以转化的简单一点然后就可以进行下面这样然后,如果跟maximum likelihood 相比较,就会发现这个策略梯度的变化的值,相比起来每一项都多乘了获得的rewa...原创 2020-04-22 21:10:55 · 174 阅读 · 0 评论