强化学习简介

最新推荐文章于 2024-06-09 10:52:59 发布

宁缺100

最新推荐文章于 2024-06-09 10:52:59 发布

阅读量369

点赞数

分类专栏： DL 强化学习文章标签：深度学习强化学习非监督学习 python

原文链接：https://www.cnblogs.com/maybe2030/p/9862353.html

版权

DL 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

强化学习

3 篇文章 0 订阅

订阅专栏

强化学习框架下交易单个股票

强化学习定义

受行为心理学的启发（如 Sutton, 1984），研究者为这一问题提出了一种形式框架，即强化学习（RL）。其主要思想是人工智能体（agent）可以通过与其环境（environment）进行交互来学习，这类似于生物智能体。使用收集到的经历（experience），人工智能体可以根据某种形式的累积奖励（reward）来优化某些目标（objective）。原则上而言，这种方法可应用于任何类型的依赖于过去经历的序列决策问题。对于这样的任务，环境可能是随机的；智能体可能仅能观察有关当前状态的部分信息；观察结果可能是高维的（比如帧和时间序列）；智能体可能会自由地在环境中收集经历；或者相反，数据可能会有所限制（比如，没有准确的模拟器或数据有限）。

深度强化学习在游戏领域有一些非常突出的成果，包括使用像素输入在 Atari 游戏上达到了超越人类玩家的水平（Mnih et al., 2015）、掌握了围棋（Silver et al., 2016a）、在扑克游戏上击败了顶级职业玩家（Brown and Sandholm, 2017; Moravčik et al., 2017）。深度强化学习也有应用于现实世界应用的潜力，比如机器人（Levine et al., 2016; Gandhi et al., 2017; Pinto et al., 2017）、自动驾驶汽车（You et al., 2017）、金融（Deng et al., 2017）和智能电网（François-Lavet, 2017）。尽管如此，应用深度强化学习算法还面临着一些难题。其中，有效地探索环境以及在稍有不同的环境中泛化出优良行为的能力还不能轻松地获得。因此，根据各种不同的序列决策任务设定，研究者们已经为深度强化学习框架提出了很多算法。

强化学习四大元素

策略（Policy）：环境的感知状态到行动的映射方式。
反馈（Reward）：环境对智能体行动的反馈。
价值函数（Value Function）：评估状态的价值函数，状态的价值即从当前状态开始，期望在未来获得的奖赏。
环境模型（Model）：模拟环境的行为。

强化学习特点

起源于动物学习心理学的试错法（trial-and-error），因此符合行为心理学。
寻求探索（exploration）和采用（exploitation）之间的权衡：强化学习一面要采用（exploitation）已经发现的有效行动，另一方面也要探索（exploration）那些没有被认可的行动，已找到更好的解决方案。
考虑整个问题而不是子问题。
通用AI解决方案。

和监督学习的比较

OpenAI Gym：Gym is a toolkit for developing and comparing reinforcement learning algorithms，Gym包含了很多的控制游戏（比如过山车、二级立杆、Atari游戏等），并提供了非常好的接口可以学习
Lil’Log：介绍DL和RL的一个优质博客，RL相关包括RL介绍、Policy Gradients算法介绍及Deep RL结合Tensorflow和Gym的源码实现
强化学习在阿里的技术演进与业务创新：介绍强化学习在阿里巴巴的落地，可以拓展强化学习应用的业务思路
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto：介绍强化学习很全面的一本书籍

宁缺100

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习简介

强化学习框架下交易单个股票强化学习定义受行为心理学的启发（如 Sutton, 1984），研究者为这一问题提出了一种形式框架，即强化学习（RL）。其主要思想是人工智能体（agent）可以通过与其环境（environment）进行交互来学习，这类似于生物智能体。使用收集到的经历（experience），人工智能体可以根据某种形式的累积奖励（reward）来优化某些目标（objective）。...
复制链接

扫一扫