人工智能教程 - 专业选修课程4.3.5 - 强化学习 3.行动决策,价值函数,模型,迷宫问题
行动决策 policy行动决策 A policy is the agent’s behaviour是状态到行动的映射 It is a map from state to action, e.g.选择的决策 Deterministic policy: a=π(s)a = \pi(s)a=π(s)随机的解决 Stochastic policy:π(a∣s)=P[At=a∣St=s]\pi (...
复制链接