强化学习
baidu_huihui
这个作者很懒,什么都没留下…
展开
-
Proximal Policy Optimization(PPO)算法原理及实现!
Proximal Policy Optimization(PPO)算法原理及实现!这两天看了一下李宏毅老师的强化学习课程的前两讲,主要介绍了Policy Gradient算法和Proximal Policy Optimization算法,在此整理总结一下。视频地址:https://www.bilibili.com/video/av24724071/?p=41、PG算法回顾在PG算法中,我们的Agent又被称为Actor,Actor对于一个特定的任务,都有自己的一个策略π,策略π通常用一个神经原创 2020-07-31 21:22:17 · 12308 阅读 · 1 评论 -
强化学习—DQN算法原理详解
强化学习—DQN算法原理详解一、 概述强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。说到DQN中有值函数网络,这里简单介绍一下强化学习中的一个概念,叫值函数近似。在基本概念这篇中有讲过,一个state action pai原创 2020-07-29 22:00:47 · 1924 阅读 · 0 评论 -
5种用于Python的强化学习框架
5种用于Python的强化学习框架从头开始编写自己的Reinforcement Learning实施可能会花费很多工作,但是您不需要这样做。 有许多出色,简单和免费的框架可让您在几分钟之内开始学习。有很多标准的库用于监督和无监督的机器学习,例如Scikit-learn,XGBoost甚至Tensorflow,这些库可以立即让您入门,并且可以在线找到支持的日志。 可悲的是,对于强化学习(RL)并非如此。并不是说没有框架,事实上,有很多RL框架。 问题是尚无标准,因此很难找到在线开始,解决问题或定制原创 2020-06-18 01:20:39 · 1069 阅读 · 0 评论