Reinforcement Learning:An Introduction翻译,能力有限,有错和不清楚的地方请指出来。
因为孤高才去挑战
序
人类通过与环境互动学习的想法可能是我们第一次思考学习的本质。婴儿玩耍时,挥舞着手臂,四处看,他没有老师教,但他每个行为都能与周遭的环境联系上,环境与行为的连接产生大量关于因果关系的信息,关于行动的后果,为了实现目标,该做些什么。在我们的生活中,这种相互作用无疑是存在的。关于我们的环境和我们自己的知识的主要来源。从交互中学习是一个基础,几乎所有学习和智力理论皆如此。我们在学怎么开车或者在撩妹,我们都意识到周围环境对我们行为作出的反映。
在这本书中,我们探索了一种从交互中学习的计算方法。而不是直接关于人或动物如何学习的理论,我们探索理论化的学习情况并评估各种学习方法的有效性。也就是说,我们采用人工智能的观点。我们探索设计有效解决学习问题的机器。
1-1 强化学习
强化学习是机器去学习怎么做,去寻找作出每个行为获得的最大奖励,机器没有被告知应该怎么做,而是通过机器自身去发现什么样的行为才能获得最大的奖励,最有趣和最具挑战性的案例中,行动可能不仅影响眼前的奖励,而且影响下一个情况,并由此影响所有延迟的奖励。强化学习最重要的特点便是错误搜索和延迟奖励。
强化学习,就像许多主题以“ing”为状态的主题。例如机器人去爬山,爬山的过程既是遇到问题过程又是解决问题的过程。
强化学习与监督学习和无监督学习都有区别,首先&#