强化学习(1)--简介

最新推荐文章于 2024-08-11 18:21:52 发布

weixin_34087503

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量443

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/jacky-ren/p/9988330.html

版权

一.简介

机器学习现在主流上被分为三种，分别是：

监督学习，如神经网络
无监督学习，如k-means
强化学习

本系列博客主要介绍强化学习方法。在章节进度上与业界大牛David Silver所讲授视频一致。由于比主水平较低，文章中不免有错误，欢迎大家在评论区给出批评指正。

二.详解

强化学习的过程非常像人成长的过程，在一个陌生的环境中，我们不知道现在做什么是对自己最有利的，我们就去尝试，做了之后环境会告诉我们结果是好的还是坏的.强化学习就是这样一个不断试错的过程，最终得到一个较优的策略。以下是强化学习的一些特征：

没有监督，仅仅只有一个奖励信号。或者说，不直接说是对试错，而是给出一个奖励
没有即时的反馈，或者说，反馈是有延迟的
数据是序列化的，数据之间有联系，并不是独立同分布的
Agent当前的动作会影响后序接受到的数据

很重要的一点是，强化学习是基于马尔科夫决策过程(MDP)的。何为马尔科夫决策过程？我们治理只先解释下马尔科夫特性：在随机过程中，下一时刻状态当且仅当与当前状态有关，即，鉴于现在，未来是独立于过去的。用公式表示如下：

MDP模型由五元组（S，A，R，P，γ）表示，其中S为状态，A是动作，R是奖励，P是转移概率，γ为折扣因子。下图为强化学习的整体框架：

简述：Agent在当前状态S_t下选择动作A_t，执行后环境给出奖励R_t，然后进入下个状态S_t+1

三.总结

强化学习在Alpha Go战胜柯洁后彻底火了起来，引发了许多学者的研究与工业界的应用。甚至有“昨日是深度学习，今日是强化学习”这样的说法，足见强化学习的影响。算法本身，主要用于解决序贯决策问题，如机器人在足球比赛中从开始到结束的一系列决策选择。算法的输入为状态集S，动作集A，奖励R，转移概率P(可无)，折扣因子γ。算法的输出是最优策略π，可以说是agent在每个不同状态做出特定动作而使累计回报最大的策略。

转载于:https://www.cnblogs.com/jacky-ren/p/9988330.html

weixin_34087503

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。