【人工智能与深度学习】不确定性下的预测和政策学习(PPUU)
由一个尽可能接近实际未来的状态去实行一个特定的行动后,我们想要我们的模型的预测。现在我们也要对应着实际未来来计算损失,那我们就必须移除模型中的潜在变量,那是因为潜在变量给我们一个特定的预测,但算了吧,如果我们只用那些平均预测的话,这个设定反而运行得更好。这就如一个简单的网路,就如以下一样,当在一个特定的状态下,你作出一个行动,然后世界就给我们下一个状态和基效行动带来的后果。在最右边的那两个图片,我们可以看出两个不同的潜在变量们组成的集,它们有着一个真实的动作序列,和这些网路有被以随机关闭潜在的手法来训练。
复制链接