
强化学习
文章平均质量分 89
DWQY
这个作者很懒,什么都没留下…
展开
-
(十一)模仿学习
从之前的讨论看,都是有奖励的。哪怕是上一章的稀疏奖励,其实也有奖励。==假如任何奖励都没有怎么办?==本章介绍的就是这种情况的解决办法。什么时候任何奖励都没有。其实还挺常见的,以聊天机器人为例,聊的好不好很难定义奖励。解决这种情况的方法就是模仿学习 模仿学习(imitation learning),有时也叫示范学习或者学徒学习。指有一些专家的示范,通过模仿这些专家来达到目的。专家的示范含义很广,比如在自动驾驶中,一个司机的行为就可以被称为专家的示范。 模仿学习中主要有两个方法:行为克隆和逆强化原创 2022-03-30 19:41:31 · 4026 阅读 · 0 评论 -
(十)稀疏奖励
关于奖励有这么一个问题:很多智能体,有时候根本没办法得到奖励。比如对于一件概率特别小的事情,如果做到了给它奖励为1,做不到就是0。从随机性的角度看,最终的奖励就会是0。没有奖励,机器也学不到什么有价值的东西。 称上面这种情况就叫做稀疏奖励。如果奖励很稀疏,RL的问题就会变得很难解决。一个真正厉害的智能体应该能够在系数奖励的情况下也学会和环境互动。本章就介绍一些解决稀疏奖励问题的方法1.设计奖励 定义:设计奖励意思说环境中有一个固定的奖励,它是真正的奖励,但是为了智能体学出来的结果是我们想要的样原创 2022-03-30 19:36:35 · 3030 阅读 · 0 评论 -
(九)演员-评论员算法
前言:演员-评论员算法又叫actor-critic算法 先从宏观上把握下本章的的内容:之前介绍过actor-critic是一种value base和policy base的结合体。首先要说明各自的缺点,再整体介绍一下actor-critic算法本身。最后会介绍几种基于actor-critic的改进算法。让我们开始吧! actor-critic是一种结合策略梯度(policy base)和时序差分学习(value base)的RL方法。对actor和critic进行下介绍: actor指策略函原创 2022-03-30 19:31:33 · 1560 阅读 · 0 评论 -
(六)深度Q网络
前言:深度Q网络,又叫DQN 传统的强化学习中存储状态价值或者Q函数都是使用的表格(比如之前的Q表格),学名叫查找表(lookup table)。这个有什么问题吗?一个大问题就是只有离散情况(可穷尽)能够被存在于表格中。对于==连续的状态空间怎么办呢?==最气人的就是,现实中还总是连续的状态空间。这个时候就不能够用表格对价值函数进行存储。这时候需要价值函数近似来解决这个问题。 价值函数近似(value function approximation):为了在连续的状态和动作空间中计算Q函数,使用另原创 2022-03-30 07:03:22 · 6094 阅读 · 1 评论 -
(五)近端策略优化
前言:近端策略优化(proximal policy optimization, PPO) 首先先进行一个引入。在之前的内容中介绍过同策略和异策略的问题,先来复习下这两个的定义: 同策略:学习的智能体与和环境交互的智能体是同一个 异策略:学习的智能体与和环境交互的智能体不是同一个 之前在将策略梯度的时候,结论式的该出了策略梯度采样的数据只能够使用一次。这个其实很浪费的。策略梯度中只针对了一个智能体做优化,所以策略梯度本身是同策略。而采样数据只能用一次也是同策略的一个特性。 采样数据只能原创 2022-03-30 06:49:44 · 2118 阅读 · 3 评论 -
(四)策略梯度(policy gradient)
前面一章表格型方法,进行策略迭代的时候利用到了Q函数。是一种value-base的方法,而之前介绍到还有一种policy-base,本章的就是一种policy-base的方法。 ps:强化学习的目的是寻找最佳策略,value-base相对复杂一点儿,先算价值再找策略。policy-base就是直接寻找策略的。 那有一个大问题就是:==明明已经有了value-base方法,为什么还要去开发policy-base呢?==有什么特殊性吗?当然有了,value-base是有局限性的,只适用于离散动作空间原创 2022-03-30 06:39:04 · 1504 阅读 · 1 评论 -
(三)表格型方法
当看到这一章名字的时候,应该首先考虑到三个问题:1)这里的表格指的是什么?2)表格型方法是用来解决什么问题的?3)表格型方法中具体有哪些方法?随着后面的介绍,将陆续解开神秘的面纱。前面已经介绍了马尔可夫决策过程,可以使用<S,A,P,R>这个四元组表示。而且从马尔可夫决策过程中,我们推导出了贝尔曼期望方程。之前也介绍过有模型和免模型的概念,区别在于是否已知状态转移和奖励函数。大多数情况最开始是没有和现实世界有接触的,所以我们更加关注于免模型,后面的讨论都是基于免模型展开。在上一章介绍原创 2022-03-30 06:28:29 · 601 阅读 · 0 评论 -
(二)马尔可夫决策过程
从第一章中了解到强化学习中,智能体通过和环境进行交互获得信息。这个交互过程可以通过马尔可夫决策过程来表示,所以了解一下什么是MDP至关重要。 不过在了解马尔可夫决策过程之前,先要一些预备知识,它们分别叫马尔可夫性质、马尔可夫过程/马尔可夫链、马尔可夫奖励过程。 马尔可夫性质(Markov property):如果一个状态的下一个状态只取决于当前状态,跟它当前状态之前的状态都没有关系。换句话说:未来的转移跟过去是独立的,只取决于现在。 给定一个状态的历史概念(其实就是过去状态的一个集合表示):原创 2022-03-29 22:27:30 · 3886 阅读 · 1 评论 -
(一)强化学习概述
强化学习近几年成为了研究的热门,AlphaGo的故事家喻户晓。作为一个准研究生,抱着极大的好奇心来学习这门理论,虽然网上已经有了许多参考资料,但知识还不是自己的。希望写这样一个系列的博客,能够在对这个领域有一些浅显的认识。所有文章的角度都会从一个小白出发,希望能给大家提供一些帮助。如有错误,请各位积极帮助指正。 本系列的参考书籍为《Easy RL》,获取原文可点此处。所以整系列博客的布局都是按照该书章节完成的。另外之前总有人倾力推荐李宏毅老师的强化学习课程,这个在B站上能够找到资源。但经过我亲身感受原创 2022-03-29 21:45:34 · 2541 阅读 · 0 评论 -
初识强化学习
前言:最近需要用到强化学习,内容比较多。写个专栏来记录下学习过程。本篇文章基于王老师的B站视频(https://www.bilibili.com/video/BV1rv41167yx?p=1)。强化学习中有很复杂的数学推导,但从直接从数学出发会让人失去学习兴趣。本篇文章先介绍一些概念性的东西,以期对强化学习能有个框架性的了解。对于具体某部分的实现过程留到后面专题讨论。 强化学习(Reinforcement Learning, RL)是机器学习下的一个分支,看起来这两年才兴起但实际上也发展了几十年了。原创 2021-12-03 06:59:24 · 1061 阅读 · 2 评论