走进强化学习

最新推荐文章于 2024-08-11 18:21:52 发布

desionwang

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：强化学习机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wdxin1322/article/details/79384146

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、什么是强化学习

强化学习是机器学习里面的一个分支，是一个智能体通过不断的与环境产生互动而不断改进它的行为，从而积累最大奖励的一个决策过程。

智能体在完成某项任务时，首先通过动作A与周围环境进行交互，在动作A和环境的作用下，智能体会产生新的状态，同时环境会给出一个立即回报。如此循环下去，智能体与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作策略，再与环境交互，产生新的数据，并利用新的数据进一步改善自身的行为，经过数次迭代学习后，智能体能最终地学到完成相应任务的最优动作（最优策略）。

它主要包含四个元素，agent，环境状态，行动，奖励，强化学习的目标就是获得最多的累计奖励。

输入与输出

记住，reinforcement learning 的输入是：

状态 (States) = 环境，例如迷宫的每一格是一个 state
动作 (Actions) = 在每个状态下，有什么行动是容许的
奖励 (Rewards) = 进入每个状态时，能带来正面或负面的价值 (utility)

而输出就是：

方案 (Policy) = 在每个状态下，你会选择哪个行动？策略链

於是这 4 个元素的 tuple （S，A，R，P）就构成了一个强化学习的系统。在抽象代数中我们常常用这 tuple 的方法去定义系统或结构。

二、为什么要强化学习（强化学习能够解决哪些问题）

首先深度增强学习有两点非常重要的特性：

1. 任何可以抽象成环境，状态，行为，奖励的问题，都可以用这个算法进行求解。

2. 不需要人工规则设定，可以将原始的图像当作状态。

deepmind所发表的深度增强学习，就是不停的对游戏画面”截图”，然后作为输入信号给程序，从而让程序学习玩任意的游戏，不需要任何人工参与。

可以看到凡是任务导向型，并且目标可以被奖惩函数刻画的，均可以利用深度增强学习来解决，所以其应用范围还是蛮广的

机器人控制

增强学习是机器学习中一个非常活跃且有趣的领域，相比其他学习方法，增强学习更接近生物学习的本质，因此有望获得更高的智能，这一点在棋类游戏中已经得到体现。Tesauro(1995)描述的TD-Gammon程序，使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈训练后，已经近似达到了人类最佳选手的水平，并在和人类顶级高手的较量中取得40 盘仅输1盘的好成绩

参考链接：

深度增强学习：走向通用人工智能之路

DeepMind和OpenAI为什么要用深度增强学习玩游戏

增强学习（一） ----- 基本概念

能否介绍一下强化学习(Reinforcement Learning)，及其和监督学习的不同？

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。