oracle就是一个函数,这个函数知道每个状态的价值函数的真实值。我们寻找近似函数去拟合这个真值函数,并以这两个函数的差的平方为损失函数,最小化损失函数以此来寻找最佳近似函数。
oracle value function in RL
最新推荐文章于 2024-09-17 16:52:57 发布
oracle就是一个函数,这个函数知道每个状态的价值函数的真实值。我们寻找近似函数去拟合这个真值函数,并以这两个函数的差的平方为损失函数,最小化损失函数以此来寻找最佳近似函数。