概率论概念
随机变量
概念:一个取决于未知事件的变量,
- 使用大写X来表示随机变量
如在抛硬币之前我是不知道硬币结果是什么,但是我知道事件的概率
- 使用小写x来表示观测值,只是表示一个数,没有随机性,如下面观测到三次抛硬币的结果
概率密度函数
probability Density Function,PDF
概念:意味着随机变量在某个确定的取值点附近的可能性
连续分布
如高斯分布这个连续分布
为均值,σ为标准差。
横轴是随机变量X取值,纵轴是概率密度,曲线是高斯分布概率密度函数P(X),说明在原点附近概率取值比较大,在原理原点附近概率取值比较小。
离散分布
离散随机变量。
PDF:
性质
- 随机变量作用域定义为花体
- 如果是连续的变量分布,则可对概率密度函数做定积分,值为1。
- 如果是离散的变量分布,则可对做一个加和,值为1。
期望
- 对于作用域中的随机变量
- 对于连续分布,函数的期望为:
- 对于离散分布,函数的期望为:
是概率密度函数
随机抽样
- 假设有10个球,2红,5绿,3蓝,随机抽一个球,会抽到哪个球。
- 在抽之前,抽到球的颜色就是个随机变量,有三种可能取值红绿蓝。
- 抽出一个球,是红色,这时候就有了一个观测值。
- 上述过程就叫随机抽样
换一个说法
- 箱子里有很多个球,也不知道有多少个
- 做随机抽样,抽到红色球概率是0.2,绿色球概率是0.5,蓝色球概率是0.3。
- 抽一个球,记录颜色,然后放回去摇匀,重复一百次,这样就有统计意义。
强化学习术语
state与action
假设在玩超级玛丽
状态state 可以表示为当前游戏这一帧的画面
观测到状态后可以做出相应动作action
这个例子中马里奥被称为agent,若在自动驾驶中,汽车就被称为agent。动作谁做的就被称为agent