强化学习原著翻译(续)

强化学习采用了相反的行动,学习的开始带有一个复杂的,具有交互的,寻求目标的智能体。所有的强化学习智能体都有明确的目标,可以感知他们环境的部分,并且可以选择行动去影响它的环境。此外,通常假定智能体一开始面对环境时没有确切的行动。当强化学习包含计划,它就显示出计划时实时行动选择的内在关联性,正如环境模型如何获得和改善的问题。当强化学习涉及监督式学习时,它会根据具体的原因确定哪些能力是关键的,哪些不是。为了学习研究取得进展,重要的子问题必须被孤立和研究,但它们应该是子问题,它们在不完整的,互动的,目标寻求的智能体中扮演明确的角色,即使完整智能体的细节还没有被填充。
我们通常并不总是认为一个复杂的,可交互的,目标导向的智能体是一个复杂的程序或者一个机器人。这些是清晰的概念,但是,一个复杂的,可交互的,目标导向的智能体也可以是一个巨大的行为系统的一个组成部分。在这种情况下,智能体直接与系统的其余部分交互,间接的和大系统的环境交互。一个简单的例子,智能体监督机器人电池的电量水平并且发送控制指令给机器人控制系统。该智能体的环境是机器人的其余部分以及机器人的环境。们必须超越最明显的智能体及其环境的例子来欣赏强化学习框架的一般性。
现代强化学习最令人激动的一个方面是与其他工程和科学学科的真实且富有成效的交叉。强化学习人工智能和机器学习长达十年的一个发展趋势,朝向更好的集成统计,优化和其他数学学科。例如,一些强化学习方法利用参数化逼近器学习的能力解决了操作研究和控制理论中经典的“维度爆炸”。更特殊的,强化学习同样和心理,神经学有很强的交互,有大量的好处。机器学习所有的形式中,强化学习是一种最接近人或者动物行为的学习方式,并且强化学习很多核心的算法就是受到生物系统启发的。强化学习也通过动物学习的心理模型(通过更好地匹配一些经验数据)和通过大脑奖励系统的部分影响模型而得到回报。
最后,强化学习同样是人工智能追求通用简化原则的一部分。自从上个世纪60年代,很多人工智能研究者假设不会有通用最简人工智能被发现,大量的假设技巧,程序和启发能够取代智能。有时候,我们会想如果我们能够获得足够多的相关事实放到一个机器里,这大概是一百万,一个亿,这样机器就会足够智慧。基于通用规则的方法,例如搜素和学习,我们叫做弱学习。基于具体知识的方法我们叫强学习。这个观点现在还很通用单并是占主要优势。从我们的观点来看,这只是一个不成熟的过程:在搜索一般原则方面做出的努力太少,以至于没有任何结论。现代人工智能包含很多研究关于学习,搜索和决策的通用规则,例如正在尝试利用大量的先验知识。目前还不清楚摆的摆动距离有多远,但强化学习研究无疑是摆脱人工智能的一般原则的一部分。

参考文献

[1]Reinforcement Learning

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值