深度强化学习王树森第二章-蒙特卡洛方法

随机变量

基本概念

随机变量是概率论中的概念,表示某一随机事件可能的结果.

随机变量不是一个值,可以理解成集合.集合中的元素是对应随机事件可能的结果.

例如,用随机变量X表示投掷骰子出现的点数.

投掷骰子就是一个随机事件.

出现的点数就是可能的结果.

所以随机变量X的取值就有{1,2,3,4,5,6}.

每一次投掷骰子得到的点数,通常用 x 1 , x 2 x_1,x_2 x1,x2进行表示.

x 1 , x 2 x_1,x_2 x1,x2都分别对应一个观测值. x 1 , x 2 x_1,x_2 x1,x2通常也称为样本.

如果随机变量X是有限的,离散的集合,那么就称为离散概率分布.

如果随机变量X的取值范围是连续的,那么就称为连续概率分布.

对于一个随机变量X,通常有两个属性进行衡量,那就是数学期望方差.

数学期望

**数学期望 E ( X ) E(X) E(X)是指随机变量X依概率收敛的平均值.

例如:对于一个质地均匀的骰子,其投掷1万次后,平均每次掷出的点数为:

∑ i = 1 6 10000 6 ∗ i 10000 \frac{\sum_{i=1}^{6} \frac{10000}{6}* i}{10000} 10000i=16610000i
上式的含义为:理想情况下,每个点数出现的次数都是 1000 6 \frac{1000}{6} 61000,乘以对应的点数,再除以总数就能求出平均点数,也就是数学期望.

而对于一个特殊制作的骰子,如果无论怎么投掷,得到的点数都是3,显然其投掷1万次后,平均每次掷出的点数为3,也就是数学期望.

简而言之,对于随机事件X而言,不同的结果对应的概率是不同的,因此如果需要随机事件的数学期望(平均值),就应当考虑其概率.从而有如下公式:
E ( X ) = ∑ p i ∗ i E(X) = \sum {p_i*i} E(X)=pii
p i p_i pi表示结果 i

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值