独立同分布
独立性
- 概念:事件A,B发生互不影响
- 公式: P(XY)=P(X)P(Y) , 即事件的概率等于各自事件概率的乘积
- 举例:
- 正例:两个人同时向上抛硬币,两个硬币均为正面的概率
- 反例:狮子在某地区出现的概率为X,老虎出现概率为Y,同时出现的概率并不满足 P(XY)=P(X)P(Y) ,因为老虎在的地方一般不会有狮子。
同分布
- 概念:随机变量(序列)在随机过程中有相同的概率分布
相关性
- 概念:反应随机变量之间相互影响的偏离程度,即协方差。但这里只讨论相关与无关,本质应该为“线性相关”,因此“不相关”本意指“线性不相关”。
- 公式: Cov(x,y)=E(xy)−E(x)E(y)=0
- 定理:独立一定不相关,但不相关不一定独立
- 举例:
- 不独立相关:
- 图例:
- 分析:为了简便理解我们假设有一个线性关系 y=x ,现在有N个随机变量分布在其中(想象还有第3维平面因此存在很多随机变量),先分析独立性:由于当x增大y也跟增大,x减小y跟着减小,因此不具备独立性;相关性:套用公式 Cov(x,y)=E(xy)−E(x)E(y) ,在这个线性function里 x=y ,因此 E(xy)=1N∑Ni=1x2i , E(x)E(y)=1N∑Ni=1xi∗1N∑Nj=1yj=1N2∑Ni=1∑Nj=1xiyj , 相减不为0因此他们线性相关。
- 不独立不相关
- 图例:
- 分析:这个分布就四个点,讨论独立性:当 x=1−>y=1||y=−1 x=−1−>y=1||y=−1 , 很显然当知道x的值,y的值就已经被确定了,因为它们不独立。讨论相关性:引入定理, E(xy)=1N∑Ni=1xiyi=0 , E(x)E(y)=12∑2i=1xi∗12∑2j=1yj=0 (因为实际只有2组值),由此可得 cov(x,y)=0 ,因此为不相关的。
- 结论:判断独立性就看它的取值是否有联系,判断线性相关就看整体分布是否存在一个线性趋势。其中还有独立相关,不独立相关等以此类比即可。
- 不独立相关:
极大似然估计
- 原理:给定一个概率分布
D
,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为
fD ,以及一个分布参数 θ ,我们可以从这个分布中抽出一个具有 n 个值的采样X1,X2,...,Xn ,利用 fD 计算其概率 P(x1,x2,...,xn)=fD(x1,x2,...,xn|θ) 。但是实际上可能并不知道 θ 的值,因此我们可以先进行抽取采样,然后根据当前的样本来估计 θ ,而最大似然估计就是得到一个可能性最大的对 θ 的估计。 - 定义似然函数: lik(θ)=fD(x1,x2,...,xn|θ) , 令一阶导数为0就可以得到函数最大值即极大似然估计。(显然,在极值处导数为0,因此在该分布函数上一般也满足当导数为0存在极值)
- 区分
p(x|θ)
和
p(θ|x)
:
- 前者是极大似然估计的概率,即我们有这个参数 θ 的情况下可以选到该组观测值的概率,而极大似然估计的目的是给定一组观测值和分布表达式 f(θ) 求解参数 θ 。换言之,我们已经有了观测值,才能去对它进行似然。
- 后者与极大似然无关,它解释的是我们已经有了观测序列x能观测到该参数的概率。换言之,我们有了观测序列求解它是什么分布的概率,这不对应机器学习的思想,因为机器学习的思想是已知分布去求解最好参数,
- 举例:给定一组手写数字识别的样本,假设其中的“6”服从多元高斯分布,问均值和协方差矩阵各是多少?
- 分布律: N(x|μ,Σ)=1(2π)D/21(|Σ|)1/2exp{−12(x−μ)TΣ−1(x−μ)}
- 极大似然的结果:
- 均值: μ^=1N∑Ni=1xi
- 协方差矩阵: Σ^=1N∑Ni=1(x−μ^)(x−μ^)T
- 推导:(在概率统计问题中,肯定是要先假设或确保该模型以独立同分布为基础)
- 极大似然估计:
L(x|μ,Σ)=p(x1,x2,...,xn)=∏Ni=1p(xi|μ,Σ)
但是相乘关系非常的难求导,又因为满足独立同分布(即每个观测值都要满足该序列分布)
因此通常会采用对其求对数的方法得到相加后再求导(因为分布的单调一致性决定了它不会改变极值的位置)
得到下式:
maxμ,Σ∏Ni=1p(xi|μ,Σ)→maxμ,Σ∑Ni=1ln(p(xi|μ,Σ))
将分布律带入到p概率中得到完全式:
L(μ,Σ)=∑i=1Nln(1(2π)D/2|Σ|1/2exp{−12(xi−μ)|Σ|−1(xi−μ)})=−ND2ln(2π)−N2ln(|Σ|)−12∑i=1N(xi−μ)TΣ−1(xi−μ)
我们想得到最大参数,只需对其各部分求偏导即可:
1.均值:
∂L(μ,Σ)∂μ=−ND2ln(2π)−N2ln(|Σ|)−12∑Ni=1(xi−μ)TΣ−1(xi−μ)∂μ=0
讲上式拆解:由于常数求导为0,所以前两项为0,而求导中常数项系数可以提取,并且矩阵乘法可
−12Σ−1∑Ni=1(xi−μ)2∂μ=0
由于 a*b = 0 , 且a≠0,因此b为0的思想可以知道,正定矩阵不为零矩阵
−12∗2∗∑Ni=1(xi−μ)=0
(x1−μ)+(x2−μ)+...+(xn−μ)=0
Nμ=∑Ni=1xi
μ^=1N∑Ni=1xi
2.协方差矩阵
∂L(μ,Σ)∂Σ=0
∂L(μ,Σ)∂Σ=−ND2ln(2π)−N2ln(|Σ|)−12∑Ni=1(xi−μ)TΣ−1(xi−μ)∂Σ=0
带 Σ 的都会被求导 因此第二项为: −N2|Σ|
第三项除去 Σ 都为常数因此只对其求导有效: 12∑Ni=1(xi−μ)T1Σ2(xi−μ)
−N2|Σ|−12∑Ni=1(xi−μ)T1Σ2(xi−μ)=0
NΣ=∑Ni=1(xi−μ)T(xi−μ)
Σ^=1N∑Ni=1(xi−μ)T(xi−μ)
- 极大似然估计:
L(x|μ,Σ)=p(x1,x2,...,xn)=∏Ni=1p(xi|μ,Σ)