Intro to RL --- Bolei Zhou
周博磊强化学习纲要学习笔记
野生蘑菇菌
中国科学院沈阳自动化研究所 && 深度学习 && 机器人控制
展开
-
lecture6:Policy OptimizatiobⅡ(策略优化2)
1、ACKTR方法是对TRPO的改进,NIPS,2017想提升TRPO的计算效率通过K-FAC的方法去加速FIM求逆(但是上节课不是说不用直接求逆,只需要转化成无约束优化,然后用共轭梯度法优化就可以吗???)思想来源于ICML2015的论文这篇论文提出:因为SGD是一阶优化,因此不是那么准确,因此提出了Natural Gradient Descend(上一节讲的),包含二阶信息,同时去除曲率影响。但是需要求逆,因此提出K-FAC方法去分解.把FIM分解成一个个block(近似???),因原创 2020-05-19 00:08:02 · 395 阅读 · 0 评论 -
lecture6:Policy OptimizatiobⅡ(策略优化1)
两条主线,一共有6中方法。策略梯度和Q两种这两堂课内容都是基于策略梯度,基于值函数的是选择最大的Q。基于策略的会给出每个动作的概率,然后采样就可以得到。策略的目标函数是,从策略得到的奖励尽可能大。然后为了减小方差,引入baseline,天然的baseline—>V。得到advantage Actor-Critic,这里需要两组参数。...原创 2020-05-12 16:10:43 · 346 阅读 · 0 评论 -
lecture5: Policy OptimizatiobⅠ(策略优化)
一、引言之前的学习方法都是基于价值函数的,而不是通过选择策略输出中取值大的值。之前基于值函数的学到的都是确定性的策略(值函数离散化后用table表示或者用网络近似)我们需要的是策略函数,输出是一个概率,取argmax的动作。对其进行采样,就可以得到具体的行为了(这种情况下不是取最大值)强化学习基于策略的优化的化,可以让优化更容易。、分类:在价值函数中是通过价值函数隐士的表示策略在策...原创 2020-04-21 11:44:51 · 619 阅读 · 0 评论 -
Lecture 4:Value Function Approximation
为什么要价值函数近似?现实生活或者更大的游戏中,状态可能非常多,如何在这种情况下运用之前的知识是一个挑战。之前的方法都可以存放在表格或者向量中,但是当状态多的时候无法保存。因此避免用table去表征,有效的解决方法是用带参数的函数近似的办法去估计。这样的优点可以泛化到没有观察到的状态,更新参数可以用MC,TD的方法近似估计。近似的类别有如下三种方式:函数估计的模型可以有多种,比如...原创 2020-04-18 14:44:06 · 594 阅读 · 0 评论 -
gym-MountainCar-v0离散状态的Q-Learning
周老师课程推荐的程序解析这里写目录标题一、关键点二、代码块一、关键点一、关于eta二、关于离散化离散为40个状态(二维)三、关于_表示某个变量是临时的或无关紧要的四、关于列表解析 solution_policy_scores = [run_episode(env, solution_policy, False) for _ in range(100)]二、代码块...原创 2020-04-17 15:37:55 · 1865 阅读 · 0 评论 -
Lecture 3:Model-free Prediction and Control
前节回顾在已知模型的时候,我们可以利用贝尔曼方程,和贝尔曼最优方程通过策略迭代和价值迭代进行更新。但是我们都需要知道概率和奖励,不需要与环境交互就可以更新。Model-free Prediction现在我们不知道MDP的模型 ,通过与环境交互,采集轨迹数据两种方法:MC,TD基于蒙特卡洛采样(MC)通过与环境交互,获取实际的回报取平均,可以得到每个状态的价值。但是只能用在可以终止的M...原创 2020-04-15 17:13:25 · 346 阅读 · 0 评论 -
Lecture 2:Markov Decision Processes
Part 1一、马尔可夫链满足马尔可夫特征,未来的转移与过去是独立的,只取决于现在。状态转移矩阵给定了马尔可夫链以后,可以对其进行采样,得到一条轨迹。二、马尔可夫奖励过程马尔可夫链+奖励函数奖励函数是一个期望类比一个没有动力的纸船,随波逐流到一定位置后得到相应奖励。值函数,是未来奖励的期望引入gamma的原因避免陷入环;同时可以尽快获得相应奖励,而不是在后面才获得奖励。...原创 2020-04-04 17:15:39 · 304 阅读 · 0 评论 -
Lecture 1: Overview
/原创 2020-03-19 16:10:41 · 157 阅读 · 0 评论