概率论基本概念

一、随机变量独立同分布:

随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值。
随机变量X1和X2同分布,意味着X1和X2具有相同的概率密度函参数,对离散型随机变量具有相同的概率函数,对连续型随机变量具有相同的概率密度函数,分布函数,均值,方差和标准差。
一般来说,在相同条件下,进行两次独立试验,则这两次实验结果所对应的随机变量是独立同分布的。比如,将一枚质地均匀的硬币抛掷两次,设X1为第一次抛硬币的结果,X2为第二次抛硬币的结果,则X1和X2独立同分布。

https://wenku.baidu.com/view/f03938c158f5f61fb73666df.html

二、极大似然估计:

2.1 似然与概率的区别和联系:

似然函数的定义:
它是给定联合样本值 X X X下关于(未知)参数 θ \theta θ的函数:
L ( θ ∣ x ) = f ( x ∣ θ ) L(\theta |x)=f(x|\theta ) L(θx)=f(xθ)

  • x x x是指联合样本随机变量 X X X的特定取值
  • θ \theta θ指未知参数,它属于参数空间
  • f ( x ∣ θ ) f(x|\theta ) f(xθ)是一个密度函数,特别地,它表示(给定) θ \theta θ下关于联合样本值 x x x的联合密度函数

所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 θ \theta θ的函数,后者是关于 x x x的函数。所以这里的等号 = = =理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。

两者的联系:

  1. 如果 X X X是离散的随机向量,那么其概率密度函数 f ( x ∣ θ ) f(x|\theta) f(xθ)可以改写为 f ( x ∣ θ ) = P θ ( X = x ) f(x|\theta)=P_{\theta}(X=x) f(xθ)=Pθ(X=x),即代表了在参数 θ \theta θ下向量 X X X取到值 x x x的可能性,并且,如果我们发现
    L ( θ 1 ∣ x ) = P θ 1 ( X = x ) > P θ 2 ( X = x ) = L ( θ 2 ∣ x ) L(\theta _1|x)=P_{\theta _1}(X=x)>P_{\theta_2}(X=x)=L(\theta_2|x) L(θ1x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2x)
    那么似然函数就反应出这样一个朴素推测,在参数 θ 1 \theta_1 θ1下向量 X X X取到值 x x x的可能性大于在参数 θ 2 \theta_2 θ2下向量 X X X取到值 x x x的可能性。换句话说,我们更有理由相信(相对于 θ 2 \theta_2 θ2来说) θ 1 \theta_1 θ1可能是真实值,这里的可能性由概率来刻画。
  2. 如果 X X X是连续的随机变量,那么其密度函数 f ( x ∣ θ ) f(x|\theta) f(xθ)本身(如果在 x x x连续的话)在 x x x处的概率为0,为了方便考虑一维情况:给定一个充分小的 ϵ > 0 \epsilon>0 ϵ>0,那么随机变量 X X X取值在 ( x − ϵ , x + ϵ ) (x-\epsilon,x+\epsilon) (xϵ,x+ϵ)的区间内的概率为
    P θ ( x − ϵ < X < x + ϵ ) = ∫ x − ϵ x + ϵ f ( x θ ) d x ≈ 2 ϵ f ( x ∣ θ ) = 2 ϵ L ( θ ∣ x ) P_{\theta}(x-\epsilon<X<x+\epsilon)=\int_{x-\epsilon}^{x+\epsilon}f(x\theta)dx\approx2\epsilon f(x|\theta)=2\epsilon L(\theta|x) Pθ(xϵ<X<x+ϵ)=xϵx+ϵf(xθ)dx2ϵf(xθ)=2ϵL(θx)
    并且在两个参数未知的情况下就可以约掉 2 ϵ 2\epsilon 2ϵ,所以和离散状态下的理解类似。

以上说明概率(密度)表达给定 θ \theta θ下样本取值取到 X = x X=x X=x的可能性,而似然表达了给定样本 X = x X=x X=x下参数 θ 1 \theta_1 θ1(相对于另外的参数 θ 2 \theta_2 θ2)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率。

可以将 p ( x ∣ θ ) p(x|\theta) p(xθ)理解为一个有两个变量的函数,如果将 θ \theta θ设为常量,那就会得到一个概率函数(关于 x x x的函数;如果将 x x x设为常量就可以得到似然函数(关于 θ \theta θ的函数)。

以一个例子来理解:

有一个硬币,它有θ的概率会正面向上,有1-θ的概率反面向上。θ是存在的,但是你不知道它是多少。为了获得θ的值,你做了一个实验:将硬币抛10次,得到了一个正反序列:x=HHTTHTHHHH。
无论θ的值是多少,这个序列的概率值为 θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ = θ⁷ (1-θ)³
比如,如果θ值为0,则得到这个序列的概率值为0。如果θ值为1/2,概率值为1/1024。
但是,我们应该得到一个更大的概率值,所以我们尝试了所有θ可取的值,画出了下图:
在这里插入图片描述
注意横坐标是 θ \theta θ,这个曲线就是 θ \theta θ的似然函数,通过在 X = x X=x X=x的已知条件下,来估计 θ \theta θ的值。
如图所以,最有可能的假设是在 θ = 0.7 \theta=0.7 θ=0.7的时候取到,这个就是极大似然估计的取值。
因为这里仅仅试验了一次,得到的样本太少,所以最终求出的极大似然值偏差较大,如果经过多次试验,扩充样本空间,则最终求得的极大似然估计就会接近真实值0.5。

https://www.zhihu.com/question/54082000

2.2 极大似然估计的原理

极大似然的基本思想是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

原理:极大似然估计法是建立在极大似然原理基础上的一个统计方法,提供了一种通过给定观测数据来评估模型参数的方法:即“模型已定,参数未定”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

似然函数:
假设样本集中的样本都是独立同分布,样本集D中包含N个样本,记为: D = x 1 , x 2 , . . . , x N D={x_1,x_2,...,x_N} D=x1,x2,...,xN
联合概率密度函数 p ( D ∣ θ ) p(D|\theta) p(Dθ)称为相对于 x 1 , x 2 , . . . , x N {x_1,x_2,...,x_N} x1,x2,...,xN θ \theta θ的似然函数 l ( θ ) l(\theta ) l(θ)
l ( θ ) = p ( D ∣ θ ) = p ( x 1 , x 2 , . . . . , x N ∣ θ ) = ∏ i = 1 N p ( x i ∣ θ ) l(\theta )=p(D|\theta )=p(x_1,x_2,....,x_N|\theta )=\prod_{i=1}^Np(x_i|\theta ) l(θ)=p(Dθ)=p(x1,x2,....,xNθ)=i=1Np(xiθ)

如果 θ ^ \hat{\theta} θ^是参数空间中能使似然函数 l ( θ ) l(\theta) l(θ)最大的 θ \theta θ值,则 θ ^ \hat{\theta} θ^应该是“最可能”的参数值,那么 θ ^ \hat{\theta} θ^就是 θ \theta θ的极大似然估计量,它是一个样本集的函数,记作:
θ ^ = d ( x 1 , x 2 , . . . , x N ) = d ( D ) \hat{\theta}=d(x_1,x_2,...,x_N)=d(D) θ^=d(x1,x2,...,xN)=d(D)

求解极大似然函数:
θ ^ = a r g m a x θ l ( θ ) = a r g m a x θ ∏ i = 1 N p ( x i ∣ θ ) \hat{\theta}=argmax_{\theta}l(\theta)=argmax_{\theta}\prod_{i=1}^Np(x_i|\theta) θ^=argmaxθl(θ)=argmaxθi=1Np(xiθ)
在实际中为了便于分析,定义了对数似然函数
H ( θ ) = l n l ( θ ) H(\theta )=lnl(\theta ) H(θ)=lnl(θ)
θ ^ = a r g m a x θ H ( θ ) = a r g m a x θ ∑ i = 1 N l n p ( x i ∣ θ ) \hat{\theta}=argmax_{\theta}H(\theta)=argmax_{\theta}\sum_{i=1}^Nlnp(x_i|\theta ) θ^=argmaxθH(θ)=argmaxθi=1Nlnp(xiθ)

https://blog.csdn.net/zengxiantao1994/article/details/72787849

三、特征函数

特征函数是随机变量分布的不同表示形式。

通常对于随机变量 X X X的分布,大家习惯用概率密度函数来描述,以正态分布为例
x ∽ N ( μ , σ 2 ) x\backsim N(\mu ,\sigma ^2) xN(μ,σ2)

其概率密度函数如下:
在这里插入图片描述
虽然概率密度函数理解起来很直观,但是确实随机变量X的分布还有另外的描述方式,比如特征函数。

1 随机变量分布的特征

随机变量的特征有如下:

期望、方差、偏态、峰态…

这些特征都和随机变量的“矩”有关系

  • 期望: μ = E ( X ) \mu = E(X) μ=E(X),其中 E ( X ) E(X) E(X)是一阶矩
  • 方差: σ 2 = E ( X 2 ) − ( E ( X ) ) 2 \sigma ^2=E(X^2)-(E(X))^2 σ2=E(X2)(E(X))2,其中 E ( X 2 ) E(X^2) E(X2)是二阶矩
  • 偏态: S k e w n e s s = E [ X 3 ] − 3 μ σ 2 − μ 3 σ 3 Skewness={E[X^3]-3\mu \sigma ^2 -\mu ^3\over \sigma ^3} Skewness=σ3E[X3]3μσ2μ3

直观上可以有以下推论(其实是有条件的,但是这里先忽略严格性):
各阶矩相等    ⟹    \implies 各个特征相等    ⟹    \implies 分布相同

2 特征函数

随机变量 X X X的特征函数定义为:

ϕ X ( t ) = E [ e i t X ] \phi _X(t)=E[e^{itX}] ϕX(t)=E[eitX]

为什么这么定义呢?首先,e^{itX}的泰勒级数为:

e i t X = 1 + i t X 1 − t 2 X 2 2 ! + . . . + ( i t ) n X n n ! e^{itX}=1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!} eitX=1+1itX2!t2X2+...+n!(it)nXn

所以代入可以推出:

$\phi _X(t) = E[e^{itX}] $
= E ( 1 + i t X 1 − t 2 X 2 2 ! + . . . + ( i t ) n X n n ! ) \quad\quad\quad\quad =E(1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!}) =E(1+1itX2!t2X2+...+n!(it)nXn)
= E ( 1 ) + E ( i t X 1 ) − E ( t 2 X 2 2 ! ) + . . . + E ( ( i t ) n X n n ! ) \quad\quad\quad\quad =E(1)+E({itX\over 1})-E({t^2X^2\over 2!})+...+E({(it)^nX^n\over n!}) =E(1)+E(1itX)E(2!t2X2)+...+E(n!(it)nXn)
= 1 + i t E [ X ] 1 − t 2 E [ X 2 ] 2 ! + . . . + ( i t ) n E [ X n ] n ! \quad\quad\quad\quad =1+{itE[X]\over 1}-{t^2E[X^2]\over 2!}+...+{(it)^nE[X^n]\over n!} =1+1itE[X]2!t2E[X2]+...+n!(it)nE[Xn]

所以根据以上推导可以看出,特征函数包含了分布函数的所有矩。我们可以进一步完善刚才的结论:
ϕ X ( t ) \phi_X(t) ϕX(t)相等    ⟹    \implies 各阶矩相等    ⟹    \implies 各个特征相等    ⟹    \implies 分布相同

四、期望:

期望反映了函数 f ( x ) f(x) f(x)在某个分布 P ( x ) P(x) P(x)下的平均表现,记为: E x ∼ P [ f ( x ) ] = ∫ p ( x ) f ( x ) d x E_{x\sim P}[f(x)]=\int p(x)f(x)dx ExP[f(x)]=p(x)f(x)dx

五、协方差与相关系数:

协方差反映了两个变量之间线性相关的强度,记为:
C o v ( f ( x ) , g ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( x ) − E [ g ( x ) ] ) Cov(f(x),g(x))=E[(f(x)-E[f(x)])(g(x)-E[g(x)]) Cov(f(x),g(x))=E[(f(x)E[f(x)])(g(x)E[g(x)])

相关系数 ρ x y \rho _{xy} ρxy将每个变量归一化,只衡量变量间的相关性,不关注变量尺度大小,公式如下:
ρ x y = C o v ( X , Y ) D ( X ) D ( Y ) \rho _{xy}={Cov(X,Y)\over \sqrt{D(X)}\sqrt{D(Y)}} ρxy=D(X) D(Y) Cov(X,Y)
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差,所以:

  • 它也可以反映两个变量变化时是同向还是反向,如果同向变化为正,如果反向变化为负。
  • 由于它是标准化后的协方差,因此更重要的特性是:它消除了两个变量变化幅度的影响,而只是单纯反映两个变量每单位变化时的相似程度。

进而可以得到如下规律:

  • 当两个变量相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍,你变小一倍,我也变小一倍。也即是完全正相关。
  • 随着两个变量相关系数的不断减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。
  • 当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。
  • 当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍,你变小一倍,我变大一倍。也即是完全负相关。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值