蒙特卡洛学习方法需要结束一个片段以此计算回报,然后用回报来计算动作值,举个例子,在自动驾驶中,MC方法需要每次都撞车才能从中学习。现实游戏中的实际情况更多是在每一步就能估算获胜的概率,而不是等一个阶段结束了,再看看自己是否获胜。而TD方法在每个时间步都能修改预测,而不是等互动结束后才更新值,这样的话你能够使用TD学习解决continuous任务和episode任务。
MC方法中在状态1下估计的retuun是6,但是收集完episode后return是8,MC方法会将值更新到6到8之间的某个
TD方法是只用状态1下的后一个状态2的值来更新Q表,状态1的值被更新为6.2
用状态2下的后一个状态3的值来更新Q表,状态1的值被更新为8.2