立即学习:https://edu.csdn.net/course/play/4916/88703?utm_source=blogtoedu
Q-Learning过程2
此时,Q{1,3}, Q{1,5}进行比较之后,最大值是100. (因为第一步已经更新过Q{1,5})。
经过更多迭代之后:Q-table会变成:
左面会把它Normalize之后,再乘以100
当两个Q value一样大时,随机选一个走就行
立即学习:https://edu.csdn.net/course/play/4916/88703?utm_source=blogtoedu
Q-Learning过程2
此时,Q{1,3}, Q{1,5}进行比较之后,最大值是100. (因为第一步已经更新过Q{1,5})。
经过更多迭代之后:Q-table会变成:
左面会把它Normalize之后,再乘以100
当两个Q value一样大时,随机选一个走就行