写博客的目的是总结自己的学习成果,希望能帮助到有需要的同学。
用到的数学知识:
条件概率分布:
https://zh.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83
期望:
https://zh.wikipedia.org/wiki/%E6%9C%9F%E6%9C%9B%E5%80%BC
马尔可夫性质:
https://zh.wikipedia.org/wiki/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E6%80%A7%E8%B4%A8
一、强化学习模型
强化学习的模型包括9个基本要素:
1.环境的状态S(State),在t时刻的状态用表示
2.个体的动作A(Action),在t时刻个体采取的动作用表示。
3.环境的奖励R(Reward),个体在状态下采取动作后,对应的奖励会在t+1时刻得到
4.个体的策略(policy),表示个体采取动作的依据。强化学习一般使用条件概率分布来表示个体在状态s下选取采取动作a的概率。
5.环境的状态转化模型,表示个体在状态s下采取动作a后转移到状态s'的概率。
6.状态价值,表示个体在状态s下,使用策略,采取行动a后的价值期望 。虽然当前动作会给一个延时奖励,但是光看这个延时奖励是不行的,因为当前的延时奖励高,不代表到了t+1,t+2,...时刻的后续奖励也高。比如下象棋,我们可以某个动作可以吃掉对方的车,这个延时奖励是很高,但是接着后面我们输棋了。此时吃车的动作奖励值高但是价值并不高。因此我们的价值要综合考虑当前的延时奖励和后续的延时奖励。价值函数一般可以表示为:
7.奖励衰减因子,。如果为0,则是贪婪法,即价值只由当前延时奖励决定,如果是1,则所有的后续状态奖励和当前奖励一视同仁。大多数时候,我们会取一个0到1之间的数字,即当前延时奖励的权重比后续奖励的权重大。
8.动作价值,表示个体在状态s下,采用动作a后获得的价值期望: