强化学习是一个优化算法吗?

强化学习是针对不完全可知的马尔科夫决策过程的最优控制问题,它是一种model-free的学习方法,与环境交互来学习。不同于监督学习的外部监督和无监督学习的结构发现,强化学习关注于通过试错找到最大化奖励的策略,涉及探索与利用的平衡。其根源可以追溯到动态规划和自动控制领域。
摘要由CSDN通过智能技术生成

强化学习到底是什么?一个学习算法?一个优化算法?或者是一类问题的总称?虽然我也一直从事强化学习领域的科研工作,但是这个问题确实今天才得到清晰的回答。

强化学习即表示一类问题,也是一类解决这种问题的方法,同时还是一个研究此问题及其解决方法领域。

首先,是哪一类问题呢?其实就是针对“不完全可知的马尔科夫决策过程”的最优控制问题。马尔科夫决策过程是其形式化描述。“不完全可知”就是这个马尔科夫决策过程模型,我们是不知道的,或者叫model-free的。

第二,适用于解决这类问题(“不完全可知的马尔科夫决策过程”的最优控制问题)的方法就是强化学习方法,那么解决这类问题还有没有其他方法呢?回答是肯定的,其实早在20世纪50年代末,就有大量的方法来解决这类问题,比如动态规划方法(通过求解贝尔曼方程)啊,其离散随机版本就是马尔科夫决策过程(MDP),还有一些MDP的策略迭代法也是当时提出的。这些概念不懂没有关系,后面还会提到这些方法,这些方法也是强化学习发展的基础。最后验证了这句话“自动控制是计算机之父”~~

回头我们看一下强化学习是如何解决这类问题的,无需MDP模型,直接利用与环境的交互经验来进行学习。从这个角度看,强化学习又属于现代机器学习领域中的一员,那么有一个问题出现了:强化学习是否与监督学习、无监督学习相同呢?

回答这个问题之前,先来了解什么是监督学习、无监督学习。监督学习从外部监督者提供的带标注的训练集中进行学习,使系统具备推断或者泛化能力,而强化学习主要关注从交互中学习,从自身经验中学习;而无监督学习旨在寻找未标注数据中隐含的结构,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值