强化学习导论(1)帝王引擎的轰鸣声

Reinforcement Learning:An Introduction翻译,能力有限,有错和不清楚的地方请指出来。

因为孤高才去挑战


人类通过与环境互动学习的想法可能是我们第一次思考学习的本质。婴儿玩耍时,挥舞着手臂,四处看,他没有老师教,但他每个行为都能与周遭的环境联系上,环境与行为的连接产生大量关于因果关系的信息,关于行动的后果,为了实现目标,该做些什么。在我们的生活中,这种相互作用无疑是存在的。关于我们的环境和我们自己的知识的主要来源。从交互中学习是一个基础,几乎所有学习和智力理论皆如此。我们在学怎么开车或者在撩妹,我们都意识到周围环境对我们行为作出的反映。

  在这本书中,我们探索了一种从交互中学习的计算方法。而不是直接关于人或动物如何学习的理论,我们探索理论化的学习情况并评估各种学习方法的有效性。也就是说,我们采用人工智能的观点。我们探索设计有效解决学习问题的机器。

1-1 强化学习

  强化学习是机器去学习怎么做,去寻找作出每个行为获得的最大奖励,机器没有被告知应该怎么做,而是通过机器自身去发现什么样的行为才能获得最大的奖励,最有趣和最具挑战性的案例中,行动可能不仅影响眼前的奖励,而且影响下一个情况,并由此影响所有延迟的奖励。强化学习最重要的特点便是错误搜索和延迟奖励。

  强化学习,就像许多主题以“ing”为状态的主题。例如机器人去爬山,爬山的过程既是遇到问题过程又是解决问题的过程。

强化学习与监督学习和无监督学习都有区别,首先&#

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值