- 博客(1)
- 收藏
- 关注
转载 Q-Learning 公式
Initialize Q arbitrarily Repeat (for each episode): Initialize S Repeat (for each step of episode): Choose A from S using policy derived from Q(e.g., ε-greedy) Take action A, ...
2018-02-25 12:52:14 814
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人