增强学习总结
增强学习概念:
增强学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累积回报。
通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。
强化学习,就是根据奖励,判断在相应的状态下,应该做的动作——从状态到动作的映射就是学习策略
增强学习是机器学习中一个非常活跃且有趣的领域,相比其他学习方法,增强学习更接近生物学习的本质,因此有望获得更高的智能,这一点在棋类游戏中已经得到体现。
特点:
1. 增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。
2. 延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。
马尔可夫决策过程:
马尔可夫决策过程(Markov DecisionProcess, MDP)也具有马尔可夫性,与上面不同的是MDP考虑了动作