3.1 为什么要使用概率?
3.2 随机变量
3.3 概率分布
3.3.1 离散型变量和概率质量函数
- 离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述。
3.3.2 连续型变量和概率密度函数
- 连续型随机变量的分布可以用概率密度函数(probability denstity function, PDF)表示。概率密度函数 p(x) 并没有直接对特定的状态给出概率,而是给出落在面积为 δx 的无限小的区域内的概率为 p(x)δx 。
3.4边缘概率
3.5条件概率
3.6条件概率的链式法则
3.7独立性和条件独立性
3.8期望、方差和协方差
- 期望,
Ex∼P[f(x)]=∑xP(x)f(x)对于连续型:Ex∼P[f(x)]=∫p(x)f(x)dx.
- 方差(variance)衡量的是当我们对
x
根据它概率分布进行采样时,随机变量
x 的函数值会呈现多大的差异:Var((fx))=E[(f(x)−E[f(x)])2].方差的平方根被称为标准差。 协方差(covariance)给出两个变量线性相关性的强度:
Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]协方差的绝对值大,意味着变量值变化很大并且它们同时距离各自的均值很远。- 若协方差为正,两个变量都倾向于同时取得相对较大的值
- 若协方差为负,其中一个变量倾向于取得相对较大的值的同时,另一个变量倾向于取得较小的值,反之亦然。
协方差矩阵(covariance matrix)是一个 n×n 的矩阵。 协方差矩阵的对角元是方差:
Cov(xi,xi)=Var(xi)
3.9 常用概率分布
3.9.1 Bernoulli分布
- Bernoulli分布是单个二值随机变量的分布。由单个参数
ϕ
控制,表示随机变量等于1的概率:
P(x=1)=ϕP(x=0)=1−ϕP(x=x)=ϕx(1−ϕ)1−xEx[x]=ϕVarx(x)=ϕ(1−ϕ)
3.9.2 Multinoulli分布
- Multinoulli分布或者范畴分布(categorycal distribution)是指在具有 k 个不同状态的单个离散型随机变量上的分布。
3.9.3 高斯分布
- 高斯分布(Gaussian distribution)也称正态分布(normal distribution):分布的均值 E[x]=μ ,分布的标准差用 σ表示 ,方差 σ2 。
N(x;μ,σ2)=12πσ2−−−−−√exp(−12σ2(x−μ)2) - 当我们缺乏关于某个实数上分布的先验知识而不知道采用哪种分布,选择正态分布的原因:
- 很多分布的真实情况比较接近正态分布。
- 在具有相同方差的所有概率分布中,正态分布在实数上具有最大的不确定性。
3.9.4指数分布和Laplace分布
- 泊松分布:一个时间段内时间平均发生的次数(离散变量)
- 指数分布:两件事发生的平均时间间隔。
p(x;λ)=λ1x≥0exp(−λx)其中 1x≥0 是指示函数(indicator function),使得 x 取负值的概率为零。泊松分布和指数分布
- Laplace分布:
Laplace(x;μ,γ)=12γexp(−|x−μ|γ)
其中 μ 是位置参数, γ 尺度参数。 - 正态分布用平均值 μ 的差的平方 (x−μ)2 。
- Laplace用相对平均值的差的绝对值表示,尾部比正态分布更平坦。(声音辨识、JPEG压缩等)
E(x)=μVar(x)=2σ2拉普拉斯分布-百度百科
3.9.5 Dira分布和经验分布
- 所有质量都集中在一点上。Dirac Delta函数:
p(x)=δ(x−μ),信号与系统中很熟悉了。除0点外所有点的值都是0,但整体积分为1.
- 经验分布(empirical distribution):
p(x)=1m∑i=1mδ(x−x(i))将概率密度为 1m的m个点中赋给每一个,给定采样
3.9.6 混合模型
- 常见的高斯混合模型(Gaussian Mixture Model),高斯混合模型是概率密度的万能近似器(universal approximator)。
3.10 常用函数的有用性质
- logistic sigmoid函数:
σ(x)=11+exp(−x),通常用来生成Bernoulli分布中的参数,(即得出分类的概率)。logistic 回归
- softplus函数(softplus function):
ζ(x)=log(1+exp(x)),可以用来产生正态分布的 β和σ 参数。来源于 x+=max(0,x) softplus Relu。
- 两者之间:
σ(x)=exp(x)exp(x)+exp(0)等公式见书。
3.11贝叶斯规则
常用:
P(x|y)=P(x)P(y|x)P(y)
,具体百度贝叶斯,朴素贝叶斯等。
###3.12连续型变量的技术细节
假设两个随机变量 x 和
不成立
举例子:假设 y=x2,x∈(0,1) 如果令 py(y)=px(2y) ,此时 py 除了区间(0, 12 )之外都为0,并在这个区间等于1(与 px 一致).所以整个区间积分为 12 ,与概率密度定义矛盾。这是因为没有考虑引入函数 g 引起的空间变形。(点的密度不同)。为解决这一矛盾:对于实值向量
3.13信息论
本科和研一学过太多了,略过0.0
- KL散度(Kullback-Leibler(KL)divergence)衡量两个单独的概率分布
P(x)
Q(x)
的差异:
DKL(P||Q)=Ex∼P[logP(x)Q(x)]=Ex∼P[logP(x)−logQ(x)]在离散型变量的情况下,KL散度衡量的是当一种能被设计成概率分布Q产生的消息的最小的编码,发送包含由概率P产生的符号的消息时,所需要的额外信息量。
- KL散度非负。KL散度为0,且 P(x)和Q(x)为离散型变量是相同的分布。
结构化概率模型
- 有向(directed)图
- 无向(undirected)图
还没用到过,不太了解。tensorflow用的就是这种格式。
- 方差 D=1N−1∑Ni=1(xi−x¯)2 ,因为N - 1 x¯ ,用掉了一个自由度。
- softplus是relu的扩展,处处可导
- nerual style ,数据很小优化可以用LBFGS