强化学习无标签
状态与行为的映射
强化学习符号定义
Rt:t时刻的奖励函数值
St:t时刻的状态
At:t时刻的行为
马尔可夫过程
马尔可夫过程:在目前已知状态下,未来的演变不依赖于过去的演变
马尔可夫性质:每一个状态的转移只依赖于其之前的那一个状态
马尔可夫假设:假设这个模型的每个状态都只依赖于之前的状态
强化学习相关算法
K-摇臂赌博机:探索-利用 困境
贪心算法:寻找当前状态下的最优解(只图眼前利益最大化)
ε-贪心算法:以ε探索,以1-ε利用
Softmax算法:k按照Boltzmann分布
有模型学习:模型已知,即MDP四元组已知;假设状态空间有限
策略评估:模型已知,则对于某一策略Π的期望累积奖励可被估计
VΠ(x):状态值函数;QΠ(x,a):状态-动作值函数
动态规划算法(DP):无后效性;最优子结构;
强化学习过程
强化学习:马尔科夫决策过程,MDP
MDP四元组:X:状态空间;A:动作空间;P:转移函数;R:奖励函数
学习的目的:找到长期累积奖赏最大化的策略
强化学习不是一个能及时反馈奖赏的过程,而是一个长期过程
开始时刻,给出开始状态
待优化目标函数:累计奖励,一段时间内的奖励函数加权平均值