强化学习的概念与应用

        近几年来强化学习逐渐成为学术的热点,各类算法得到了很大的发展与应用,笔者也有幸参与了一些项目,比如路径规划与避障、边缘计算、无人机任务分配、自适应编码调制、频率使用优化、雷达调度等等,场景和应用不尽相同,颇有些收获。虽然做的还比较粗浅,非常愿意将一些经验和案例一起分享,本期先从一些基本的概念和理解开始,后续更多做些分享。

一、什么是强化学习?

        强化学习是机器学习基于奖励所希望的行为和惩罚不希望的行为的训练方法。一般而言,强化学习代理人----接受培训的实体----能够感知和解释其环境,采取行动,并通过反复试验学习。

        强化学习是开发人员用来培训机器学习系统的几种方法之一。这种方法之所以重要,是因为它赋予了代理人权力,无论它是一个视频游戏中的一个特性,还是一个机器人在一个环境中,要学会处理它所创造的复杂环境。随着时间的推移,通过通常包括奖惩的反馈系统,代理从其环境中学习并优化其行为。

二、强化学习如何工作?

        在强化学习中,开发人员设计了一种方法来奖励期望的行为和惩罚消极的行为。这个方法将正值分配给所需的动作,以鼓励代理使用它们,而负值被分配给不希望的行为,以阻止它们选择这类行为。这个程序的代理寻求长期和最大的总体回报,以实现一个最佳的解决方案。

        这些长期目标有助于防止代理陷入不太重要的目标。随着时间的推移,代理人学会了避免消极和寻求积极。人工智能已经采用了这种学习方法作为导演的一种方式无监督机器学习通过奖励或积极的加强和惩罚或消极的加强。

        马尔科夫是强化学习系统的基础。在这个过程中,一个代理存在于环境中的特定状态中,它必须从它可以在当前状态下执行的多个潜在操作中选择最佳的可能操作。某些行动为激励提供奖励。当它处于下一个状态时,它就会有新的奖励行动。随着时间的推移,累积报酬是代理从其选择执行的操作中获得的报酬的总和。

三、强化学习的应用和实例

        虽然强化学习一直是人工智能领域的一个很受关注的话题,但它在现实世界中的广泛应用和应用仍然有限。然而,注意到这一点,关于理论应用的研究论文比比皆是,也有一些成功的案例。

        目前的用途包括:赌博、资源管理、个性化建议、机器人技术等。游戏可能是最常用的强化学习,因为它可以在许多游戏中获得超人的表现。常见的例子是游戏-步行者。步行者可能有能力在四个可能的方向中移动,除非遇到障碍。从像素数据来看,旅行单位的结果可能给代理人一个数字奖励:空空间0,小颗粒1,水果2,动力小颗粒3,幽灵后动力小颗粒4,收集所有小颗粒以完成水平5,与鬼魂碰撞5点扣减。该代理人从随机游戏开始,到更复杂的游戏,学习获得所有颗粒完成水平的目标。在一段时间内,特工甚至可能会学习一些战术,比如保存能量球,直到需要自卫。

        只要有明确的回报,强化学习就能在一种情况下运作。只要强化算法试图实现一个总体目标,它就会为不同的任务分配有限的资源。在这种情况下,一个目标是节省时间或节约资源。

        在机器人学中,强化学习已经进入了有限的测试。这种类型的机器学习可以为机器人提供学习人类教师无法演示的任务的能力,使所学到的技能适应新的任务,并在没有分析公式的情况下实现优化。

        强化学习还被用于操作研究、信息理论、博弈理论、控制理论、基于模拟的优化、多代理系统、群体智能、统计学、遗传算法和持续进行中 工业自动化 努力。

四、应用强化学习的挑战

        强化学习虽然潜力很大,但也会带来一些权衡。它可能难以部署,而且其应用仍然有限。部署这种机器学习的障碍之一是它对环境的依赖。

        例如,如果你要部署一个依靠强化学习来导航复杂物理环境的机器人,它将寻找新的状态,并在移动时采取不同的行动。然而,由于这种强化学习问题,由于环境变化的频率,在现实环境中很难始终如一地采取最佳行动。

        确保通过这种方法正确地进行学习所需的时间会限制它的用处,并在计算资源上产生密集作用。随着培训环境的日益复杂,对时间和计算资源的需求也随之增加。监督学习如果有适当数量的数据可用,可以比强化学习更快速、更有效地向公司提供成果,因为它可以用较少的资源。

五、常见的强化学习算法

        强化学习领域不是指特定的算法,而是由几种采用不同方法的算法组成。这些差异主要是因为他们在探索环境时采用了不同的策略:

        State-action-reward-state-action。这种强化学习算法从给代理人一种保险单。确定以政策为基础的最佳办法需要研究某些行动产生回报或有利国家的可能性,以指导其决策。

        Q学习。这种加强学习的方法采取相反的方法。代理人不接受任何保险单,并基于对其环境的探索了解某一行为的价值。这种方法不是基于模型,而是更自我导向。

        深度Q网络。结合深入的Q学习,这些算法使用神经网络除了强化学习技巧。它们也被称为深度强化学习并采用强化学习的自我导向环境探索方法。作为学习过程的一部分,这些网络将未来的行动建立在过去有利行动的随机抽样之上。

六、强化学习和无监督学习有何不同?

        强化学习被认为是机器学习的一个分支。然而,它确实与其他类型的机器学习有一些相似之处,它们分为以下四个领域:

        受监督的学习。在有监督的学习中,算法在一组标记数据上进行训练。受监督学习算法只能学习数据集中指定的属性。受监督学习的一个共同应用是 图像识别 模特。这些模型接收一组有标记的图像,并学会区分预先定义形式的共同属性。

        无监督学习。在无监督的学习中,开发人员打开了完全未标记数据的算法。这些算法通过对自己对数据特性的观察进行编目来学习,而没有被告知要寻找什么。

        半监督式的学习。这一方法采取了一种中间方法。开发人员输入相对较小的一组标记培训数据,以及更大的未标记数据集。然后指示该算法将从标记数据中获得的信息外推到未标记数据中,并从整个集合中得出结论。

        强化学习。这采取了不同的做法。它将代理置于一个具有明确参数的环境中,这些参数定义了有益活动和非有益活动,并且是一个要达到的最重要的结束游戏。

        强化学习与监督学习是相似的,因为开发者必须给算法指定的目标,并定义奖励功能和惩罚功能。这意味着明确的编程水平比无监督的学习要高。但是,一旦这些参数被设置好,算法就会自己操作--使它比受监督的学习算法更有自我导向性。由于这个原因,人们有时把强化学习说成是半专业学习的一个分支;实际上,它通常被认为是自己的机器学习类型。

七、强化学习的未来

        预计强化学习将在大赦国际的未来发挥更大的作用。其他的训练机器学习算法需要大量的预先存在的训练数据。另一方面,强化学习代理需要时间来逐步学习如何通过与环境的交互来操作。尽管存在挑战,但预计各行业将继续探索强化学习的潜力。

        强化学习已经在各个领域显示出希望。例如,营销和广告公司正在使用以这种方式为推荐引擎训练的算法。制造商正在利用强化学习训练下一代机器人系统。

        科学家们在字母网的人工智能子公司,提议强化学习可以带来人工智能的现状--经常被称为 狭窄的人工智能 --对其理论上的最终形式 人工综合情报 .他们相信通过强化学习来学习的机器最终会变得有知觉,并独立于人类的监督而运作。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Older司机渣渣威

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值