当我们思考学习的本质时,我们首先想到的是通过与环境互动来学习。当婴儿玩耍时,挥舞手臂或四处看,它没有明确的老师,但他可以通过直接的感觉与环境联系。他可以通过这种联系获得大量关于因果关系,行动的结果,以及如何实现目标的信息。在我们的生活中,这样的交流无疑是我们的环境和我们自己知识的主要来源。无论我们是学开车还是交谈,我们都可以敏锐的意识到我们的环境对我们所做的事情将作出什么样的反应,并且我们试图通过我们的行为来影响所发生的事情。从交互中学习是几乎所有学习和智能理论的基本思想。
在这本书中,我们探索了一种从交互中学习的计算方法。我们不直接对人或动物如何学习进行理论分析,而是探索理想化的学习情境,评估各种学习方法的效率。也就是说,我们采用人工智能研究人员或工程师的角度。我们探索去设计在这些方面上格外有效率的机器,他能够解决科学或经济学领域的问题。通过数据分析和计算实验来评估这些设计(solving learning problems of scientific or economic interest, evaluating the designs through mathematical analysis or computational experiments)。我们将这种方法称为强化学习,更侧重于目标导向的交互学习,而不是其他方法。