1.随机变量
- 随机事件的数量表现;随机变量可以是离散的或者连续的。
- 离散随机变量是指拥有有限个或者可列无限多个状态的随机变量。
- 连续随机变量是指变量值不可随机列举出来的随机变量,一般取实数值。
- 随机变量通常用概率分布来指定它的每个状态的可能性。
2.常见概率分布
- 伯努利分布
- 伯努利试验:只可能有两种结果的单次随机试验。又称0-1分布,单个二值型离散随机变量的分布。
- P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p, P(X=0)=1-p P(X=1)=p,P(X=0)=1−p
- 二项分布
- 即重复n次伯努利试验,各试验之间都相互独立。
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为 P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k)=C_{n}^{k}p^{k}(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
- 均匀分布
- 又称矩形分布,在给定长度间隔[a, b]内的分布概率是等可能的,均匀分布由参数a, b定义,概率密度为
p ( x ) = { 1 b − a i f a ⩽ x ⩽ b 0 e l s e p(x)=\left\{\begin{matrix} \frac{1}{b-a} & if a\leqslant x \leqslant b\\ 0 & else \end{matrix}\right. p(x)={b−a10ifa⩽x⩽belse - 累积概率分布函数
p ( X ≤ x ) = ∫ − ∞ x p ( x ) d x = { 0 for x < a x − a b − a for a ≤ x ≤ b 1 for x ≥ b p(X\leq x)=\int_{-\infty }^{x}p(x)dx=\begin{cases} 0 & \text{ for } x<a \\ \frac{x-a}{b-a} & \text{ for } a\leq x \leq b\\ 1 & \text{ for } x \geq b \end{cases} p(X≤x)=∫−∞xp(x)dx=⎩⎪⎨⎪⎧0b−ax−a1 for x<a for a≤x≤b for x≥b
- 又称矩形分布,在给定长度间隔[a, b]内的分布概率是等可能的,均匀分布由参数a, b定义,概率密度为
- 高斯分布
- 又称正态分布,是实数中最常用的分布。
- 由均值
μ
\mu
μ和标准差
σ
\sigma
σ决定其分布,概率密度函数为
p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x)=\frac{1}{\sqrt{2 \pi}\sigma}e^{- \frac {(x- \mu)^{2}}{2 \sigma^{2}}} p(x)=2πσ1e−2σ2(x−μ)2 - σ \sigma σ越大图像越高耸*
- 指数分布
- 常用来表示独立随机事件发生的时间间隔。
- 参数为
λ
\lambda
λ的指数分布概率密度
p ( x ) = { λ e − λ x x ≥ 0 0 x < 0 p(x)=\begin{cases} \lambda e^{-\lambda x} & x\geq 0 \\ 0 & x<0 \end{cases} p(x)={λe−λx0x≥0x<0 - 累积概率分布函数
P ( X ≤ x ) = ∫ − ∞ x p ( x ) d x = { 1 − e − λ x x ≥ 0 0 x < 0 P(X\leq x)=\int_{-\infty}^{x}p(x)dx= \begin{cases} 1-e^{-\lambda x}& x\geq0 \\ 0 & x<0 \end{cases} P(X≤x)=∫−∞xp(x)dx={1−e−λx0x≥0x<0 - 指数分布的重要特征是无记忆性。
3.其他相关知识
- 条件概率
- 事件X在事件Y发生的条件下发生的概率。 P ( X ∣ Y ) P(X|Y) P(X∣Y)
- 联合概率
- 表示两个事件X和Y共同发生的概率。 P ( X , Y ) P(X,Y) P(X,Y)
- 条件概率和联合概率的性质
P ( Y ∣ X ) = P ( Y , X ) P ( X ) , P ( X ) > 0 P(Y|X)=\frac {P(Y,X)} {P(X)},P(X)>0 P(Y∣X)=P(X)P(Y,X),P(X)>0
- 先验概率
- 根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现
- 后验概率
- 指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的“因”。
- 全概率公式
- P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) P(B)=∑i=1nP(Ai)P(B∣Ai)
- 贝叶斯公式
- P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) P ( B ) P(A_{i}|B)=\frac {P(B|A_{i})P(A_{i})} {P(B)} P(Ai∣B)=P(B)P(B∣Ai)P(Ai)
- 熵
- 信息熵,可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量
- 假定当前样本集合X中第i类样本所占的比列为
p
i
p_{i}
pi,则X的信息熵定义为
H ( X ) = − ∑ i = 1 n P ( x i ) l o g 2 P ( x i ) H(X)=-\sum_{i=1}^{n}P(x_{i})log_{2}P(x_{i}) H(X)=−∑i=1nP(xi)log2P(xi) - 联合熵:
H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) l o g 2 P ( x i , y i ) H(X,Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i},y_{i}) H(X,Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi,yi) - 条件熵:
H ( X ∣ Y ) = − ∑ i = 1 n ∑ j = 1 n P ( x i , y i ) l o g 2 P ( x i ∣ y i ) H(X|Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}P(x_{i},y_{i})log_{2}P(x_{i}|y_{i}) H(X∣Y)=−∑i=1n∑j=1nP(xi,yi)log2P(xi∣yi)
H(X|Y)=H(X,Y)-H(X)
互信息: I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)+H(Y)−H(X,Y) - 相对熵
- 又称互熵、交叉熵、KL散度、信息增益
- 描述两个概率分布P和Q差异的一种方法,记做D(P||Q)
- 在信息论中D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗,其中P表示信源的真实分布,Q表示P的近似分布。即使用基于Q的分布来编码服从P的分布的样本所需的额外的平均比特数
- 离散形式: D ( P ∣ ∣ Q ) = ∑ P ( x ) l o g P ( x ) Q ( x ) D(P||Q)=\sum P(x)log\frac {P(x)} {Q(x)} D(P∣∣Q)=∑P(x)logQ(x)P(x)
- 连续形式: D ( P ∣ ∣ Q ) = ∫ P ( x ) l o g P ( x ) Q ( x ) D(P||Q)=\int P(x)log\frac {P(x)} {Q(x)} D(P∣∣Q)=∫P(x)logQ(x)P(x)
- 常用统计量
- 期望:试验中每次可能结果的概率乘以其结果的总和,反映随机变量平均值的大小。
- 离散随机变量: E ( X ) = ∑ k = 1 n x k P ( x k ) E(X)=\sum _{k=1}^{n}x_{k}P(x_{k}) E(X)=∑k=1nxkP(xk)
- 连续随机变量: ∫ − ∞ + ∞ x p ( x ) d x \int_{-\infty}^{+\infty}xp(x)dx ∫−∞+∞xp(x)dx
- 方差:用来衡量随机变量和数学期望之间的偏离程度; V a r ( X ) = E [ x − E ( x ) ] 2 = E ( x 2 ) − [ E ( x ) ] 2 Var(X)=E{[x-E(x)]^{2}}=E(x^{2})-[E(x)]^{2} Var(X)=E[x−E(x)]2=E(x2)−[E(x)]2
- 协方差:衡量两个随机变量X和Y直接的总体误差,计算过程为:
Cov(X,Y)=E{[x-E(x)][y-E(y)]}=E(xy)-E(x)E(y)
- 期望:试验中每次可能结果的概率乘以其结果的总和,反映随机变量平均值的大小。