强化学习: Q-learning实例python实现
实现步骤:随机生成一个Q表,初始化状态为S0; 在当前状态下选择一个动作执行:如果Q表全为0,随机选择。否则,10%的时间随机选择一个动作执行,90%的时间选择当前状态下,使得Q值最大的一个动作A执行; 根据当前状态和当前动作,获得下一个会产生的状态S_和奖励R;(此步根据现实自定义) 根据选择的动作,计算预估的Q值(即查Q表),真实的Q值 Q_real = R+lambda*max(Q(S'),即reward再加上后续状态中出现的最大的Q值。具体原理类似于贝尔曼方程; 更新Q表,Q(S,A..
原创
2022-03-12 10:11:22 ·
3127 阅读 ·
1 评论