深度强化学习王树森第二章-蒙特卡洛方法
而在期望中,各个样本点出现的概率是服从某一个概率分布的,因此我们对样本点的采样也应当服从这一分布,这样才能更加逼近真实期望值.在上述代码中,使用了一个更新均值的公式,这样我们就无需同时记录所有的样本点值,可以直接更新,大大节省了存储空间.的骰子,如果无论怎么投掷,得到的点数都是3,显然其投掷1万次后,平均每次掷出的点数为3,也就是。个样本点,计算每个样本的函数值,求平均,再乘以2,就完成了对定积分的近似.的取值就有{1,2,3,4,5,6}.是有限的,离散的集合,那么就称为。