Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

最新推荐文章于 2020-05-03 12:59:33 发布

weixin_34304013

最新推荐文章于 2020-05-03 12:59:33 发布

阅读量204

点赞数

文章标签：人工智能

原文链接：https://yq.aliyun.com/articles/436046

版权

本文来自AI新媒体量子位（QbitAI）

今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。

智能体可以是游戏代理、推荐系统、通知机器人或其他的决策系统。奖励可以是游戏中的点数、或者是网站上更多的参与度。

这个开源的Caffe2 RL框架中包含了一些在OpenAI Gym环境下基于Caffe2的RL实现：

1.DQN

一种Deep Q Learning网络的实现：

https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf.

2.SARSA

这是假设输入是既定策略（on-policy）的简化的DQN:

生成数据的策略是实时更新的。SARSA的优点是在训练过程中，我们无需了解可能的动作，只需知道采取了行动就好了。

3.Actor-Critic

Actor Critic模型的实现：

https://arxiv.org/pdf/1509.02971.pdf

RL_Caffe2 GitHub地址：

https://github.com/caffe2/reinforcement-learning-models

a59af75575f0a6d49ee103c6e766ac28dd1005f0

无独有偶，几日前谷歌TensorFlow中构建并行强化学习算法的基础架构范例TensorFlow Agents也开源了。

TensorFlow Agents将OpenAI Gym的接口扩展到多个并行环境，用户可在TensorFlow中训练智能体并执行批量运算。此外，研究人员还提供了近端策略优化（Proximal Policy Optimization，PPO）中的实现BatchPPO。

TensorFlow Agents GitHub 地址：

https://github.com/tensorflow/agents

相关论文：

https://arxiv.org/abs/1709.02878

— 完 —

本文作者：安妮

原文发布时间：2017-09-15

weixin_34304013

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Caffe2推出强化学习库，包含多个基于Caffe2的RL实现

本文来自AI新媒体量子位（QbitAI）今年4月，Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个月后今天，Caffe2又推出了一组强化学习库RL_Caffe2。强化学习（Reinforcement learning,RL）是机器学习的一个领域，它想教会智能体动作和行为的关系，并在环境中持续一段时间后将奖励最大化。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。