2.1引言
本书采用贝叶斯解释(概率是我们对事件的发生可能的预期)
2.2基本概念
离散随机变量:
- 概率:p(A) 条件概率:p(A|B) 联合概率:p(A,B)
- 乘法原理:p(A,B)=p(A|B)p(B) 加法原理:
- 贝叶斯法则:
- 无条件独立: 条件独立:
连续随机变量:
- 累积分布函数,cdf:,性质:单调递增,反函数存在,小于1
- 概率密度函数,pdf:,性质:非负,可大于1,积分为1
重要数据:
- 均值:
- 方差:
2.3常见离散分布
- 二项分布,多项分布,伯努利分布,多项伯努利分布:
- 泊松分布:
- 经验分布:
2.4常见连续分布
- 高斯(正态分布):
- 狄拉克delta函数:,且使得
- 学生t分布:
- 拉普拉斯分布:
- 伽马分布:
- Beta分布:
- 帕累托分布:
2.5多变量联合概率分布
协方差&相关系数:
- 协方差:
- 协方差矩阵:
- 相关系数:,取值为[-1,1]
- 相关系数描述的是随机变量X和Y之间的线性相关程度
多元分布的刻画:
- 多元高斯(正态)分布:
- 多元学生t分布:
- 狄利克雷分布
2.6随机变量的变量替换
已知x的分布,求y=f(x)的分布:
- 离散变量:
- 连续变量:变量替换公式:
- 多元变量替换:Jacobi行列式:
中心极限定理:
- N个独立同分布的随机变量的加和的分布随着N的增大而趋近于正态分布
蒙特卡洛近似:
- 目的:有时变换y=f(x)会非常复杂,使用变量替换公式是不现实的,因此我们需要一个近似
- 使用S个样本的取值估计f(X)的期望:
- 精度估计:
2.8信息论
基础度量:
- 熵:离散变量:,性质:非负,在均匀分布时取得最大值;在delta分布时取得最小值0
- 交叉熵:离散变量X,Y:,解释:分布为p的数据使用模型q进行编码时的平均比特数
- 条件熵:离散变量X,Y:
- KL散度:离散变量p,q:,性质:非负,不对称,取0当且仅当p=q
互信息:
- 意义:描述随机变量X,Y的相关程度(可以非线性)
- 定义:离散变量X,Y:
- 解释:,表示X的不确定性和在观测到Y后X的不确定性的差值
- 连续随机变量的互信息:取不同的区间尝试分割,然后取其中算出的最大的互信息,称为最大信息系数法:,