一、随机变量独立同分布:
随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值。
随机变量X1和X2同分布,意味着X1和X2具有相同的概率密度函参数,对离散型随机变量具有相同的概率函数,对连续型随机变量具有相同的概率密度函数,分布函数,均值,方差和标准差。
一般来说,在相同条件下,进行两次独立试验,则这两次实验结果所对应的随机变量是独立同分布的。比如,将一枚质地均匀的硬币抛掷两次,设X1为第一次抛硬币的结果,X2为第二次抛硬币的结果,则X1和X2独立同分布。
https://wenku.baidu.com/view/f03938c158f5f61fb73666df.html
二、极大似然估计:
2.1 似然与概率的区别和联系:
似然函数的定义:
它是给定联合样本值
X
X
X下关于(未知)参数
θ
\theta
θ的函数:
L
(
θ
∣
x
)
=
f
(
x
∣
θ
)
L(\theta |x)=f(x|\theta )
L(θ∣x)=f(x∣θ)
- x x x是指联合样本随机变量 X X X的特定取值
- θ \theta θ指未知参数,它属于参数空间
- f ( x ∣ θ ) f(x|\theta ) f(x∣θ)是一个密度函数,特别地,它表示(给定) θ \theta θ下关于联合样本值 x x x的联合密度函数
所以从定义上,似然函数和密度函数是完全不同的两个数学对象:前者是关于 θ \theta θ的函数,后者是关于 x x x的函数。所以这里的等号 = = =理解为函数值形式的相等,而不是两个函数本身是同一函数(根据函数相等的定义,函数相等当且仅当定义域相等并且对应关系相等)。
两者的联系:
- 如果
X
X
X是离散的随机向量,那么其概率密度函数
f
(
x
∣
θ
)
f(x|\theta)
f(x∣θ)可以改写为
f
(
x
∣
θ
)
=
P
θ
(
X
=
x
)
f(x|\theta)=P_{\theta}(X=x)
f(x∣θ)=Pθ(X=x),即代表了在参数
θ
\theta
θ下向量
X
X
X取到值
x
x
x的可能性,并且,如果我们发现
L ( θ 1 ∣ x ) = P θ 1 ( X = x ) > P θ 2 ( X = x ) = L ( θ 2 ∣ x ) L(\theta _1|x)=P_{\theta _1}(X=x)>P_{\theta_2}(X=x)=L(\theta_2|x) L(θ1∣x)=Pθ1(X=x)>Pθ2(X=x)=L(θ2∣x)
那么似然函数就反应出这样一个朴素推测,在参数 θ 1 \theta_1 θ1下向量 X X X取到值 x x x的可能性大于在参数 θ 2 \theta_2 θ2下向量 X X X取到值 x x x的可能性。换句话说,我们更有理由相信(相对于 θ 2 \theta_2 θ2来说) θ 1 \theta_1 θ1可能是真实值,这里的可能性由概率来刻画。 - 如果
X
X
X是连续的随机变量,那么其密度函数
f
(
x
∣
θ
)
f(x|\theta)
f(x∣θ)本身(如果在
x
x
x连续的话)在
x
x
x处的概率为0,为了方便考虑一维情况:给定一个充分小的
ϵ
>
0
\epsilon>0
ϵ>0,那么随机变量
X
X
X取值在
(
x
−
ϵ
,
x
+
ϵ
)
(x-\epsilon,x+\epsilon)
(x−ϵ,x+ϵ)的区间内的概率为
P θ ( x − ϵ < X < x + ϵ ) = ∫ x − ϵ x + ϵ f ( x θ ) d x ≈ 2 ϵ f ( x ∣ θ ) = 2 ϵ L ( θ ∣ x ) P_{\theta}(x-\epsilon<X<x+\epsilon)=\int_{x-\epsilon}^{x+\epsilon}f(x\theta)dx\approx2\epsilon f(x|\theta)=2\epsilon L(\theta|x) Pθ(x−ϵ<X<x+ϵ)=∫x−ϵx+ϵf(xθ)dx≈2ϵf(x∣θ)=2ϵL(θ∣x)
并且在两个参数未知的情况下就可以约掉 2 ϵ 2\epsilon 2ϵ,所以和离散状态下的理解类似。
以上说明概率(密度)表达给定 θ \theta θ下样本取值取到 X = x X=x X=x的可能性,而似然表达了给定样本 X = x X=x X=x下参数 θ 1 \theta_1 θ1(相对于另外的参数 θ 2 \theta_2 θ2)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率。
可以将 p ( x ∣ θ ) p(x|\theta) p(x∣θ)理解为一个有两个变量的函数,如果将 θ \theta θ设为常量,那就会得到一个概率函数(关于 x x x的函数;如果将 x x x设为常量就可以得到似然函数(关于 θ \theta θ的函数)。
以一个例子来理解:
有一个硬币,它有θ的概率会正面向上,有1-θ的概率反面向上。θ是存在的,但是你不知道它是多少。为了获得θ的值,你做了一个实验:将硬币抛10次,得到了一个正反序列:x=HHTTHTHHHH。
无论θ的值是多少,这个序列的概率值为 θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ = θ⁷ (1-θ)³
比如,如果θ值为0,则得到这个序列的概率值为0。如果θ值为1/2,概率值为1/1024。
但是,我们应该得到一个更大的概率值,所以我们尝试了所有θ可取的值,画出了下图:
注意横坐标是
θ
\theta
θ,这个曲线就是
θ
\theta
θ的似然函数,通过在
X
=
x
X=x
X=x的已知条件下,来估计
θ
\theta
θ的值。
如图所以,最有可能的假设是在
θ
=
0.7
\theta=0.7
θ=0.7的时候取到,这个就是极大似然估计的取值。
因为这里仅仅试验了一次,得到的样本太少,所以最终求出的极大似然值偏差较大,如果经过多次试验,扩充样本空间,则最终求得的极大似然估计就会接近真实值0.5。
https://www.zhihu.com/question/54082000
2.2 极大似然估计的原理
极大似然的基本思想是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:极大似然估计法是建立在极大似然原理基础上的一个统计方法,提供了一种通过给定观测数据来评估模型参数的方法:即“模型已定,参数未定”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
似然函数:
假设样本集中的样本都是独立同分布,样本集D中包含N个样本,记为:
D
=
x
1
,
x
2
,
.
.
.
,
x
N
D={x_1,x_2,...,x_N}
D=x1,x2,...,xN
联合概率密度函数
p
(
D
∣
θ
)
p(D|\theta)
p(D∣θ)称为相对于
x
1
,
x
2
,
.
.
.
,
x
N
{x_1,x_2,...,x_N}
x1,x2,...,xN的
θ
\theta
θ的似然函数
l
(
θ
)
l(\theta )
l(θ):
l
(
θ
)
=
p
(
D
∣
θ
)
=
p
(
x
1
,
x
2
,
.
.
.
.
,
x
N
∣
θ
)
=
∏
i
=
1
N
p
(
x
i
∣
θ
)
l(\theta )=p(D|\theta )=p(x_1,x_2,....,x_N|\theta )=\prod_{i=1}^Np(x_i|\theta )
l(θ)=p(D∣θ)=p(x1,x2,....,xN∣θ)=∏i=1Np(xi∣θ)
如果
θ
^
\hat{\theta}
θ^是参数空间中能使似然函数
l
(
θ
)
l(\theta)
l(θ)最大的
θ
\theta
θ值,则
θ
^
\hat{\theta}
θ^应该是“最可能”的参数值,那么
θ
^
\hat{\theta}
θ^就是
θ
\theta
θ的极大似然估计量,它是一个样本集的函数,记作:
θ
^
=
d
(
x
1
,
x
2
,
.
.
.
,
x
N
)
=
d
(
D
)
\hat{\theta}=d(x_1,x_2,...,x_N)=d(D)
θ^=d(x1,x2,...,xN)=d(D)
求解极大似然函数:
θ
^
=
a
r
g
m
a
x
θ
l
(
θ
)
=
a
r
g
m
a
x
θ
∏
i
=
1
N
p
(
x
i
∣
θ
)
\hat{\theta}=argmax_{\theta}l(\theta)=argmax_{\theta}\prod_{i=1}^Np(x_i|\theta)
θ^=argmaxθl(θ)=argmaxθ∏i=1Np(xi∣θ)
在实际中为了便于分析,定义了对数似然函数
H
(
θ
)
=
l
n
l
(
θ
)
H(\theta )=lnl(\theta )
H(θ)=lnl(θ)
θ
^
=
a
r
g
m
a
x
θ
H
(
θ
)
=
a
r
g
m
a
x
θ
∑
i
=
1
N
l
n
p
(
x
i
∣
θ
)
\hat{\theta}=argmax_{\theta}H(\theta)=argmax_{\theta}\sum_{i=1}^Nlnp(x_i|\theta )
θ^=argmaxθH(θ)=argmaxθ∑i=1Nlnp(xi∣θ)
https://blog.csdn.net/zengxiantao1994/article/details/72787849
三、特征函数
特征函数是随机变量分布的不同表示形式。
通常对于随机变量
X
X
X的分布,大家习惯用概率密度函数来描述,以正态分布为例
x
∽
N
(
μ
,
σ
2
)
x\backsim N(\mu ,\sigma ^2)
x∽N(μ,σ2)
其概率密度函数如下:
虽然概率密度函数理解起来很直观,但是确实随机变量X的分布还有另外的描述方式,比如特征函数。
1 随机变量分布的特征
随机变量的特征有如下:
期望、方差、偏态、峰态…
这些特征都和随机变量的“矩”有关系
- 期望: μ = E ( X ) \mu = E(X) μ=E(X),其中 E ( X ) E(X) E(X)是一阶矩
- 方差: σ 2 = E ( X 2 ) − ( E ( X ) ) 2 \sigma ^2=E(X^2)-(E(X))^2 σ2=E(X2)−(E(X))2,其中 E ( X 2 ) E(X^2) E(X2)是二阶矩
- 偏态: S k e w n e s s = E [ X 3 ] − 3 μ σ 2 − μ 3 σ 3 Skewness={E[X^3]-3\mu \sigma ^2 -\mu ^3\over \sigma ^3} Skewness=σ3E[X3]−3μσ2−μ3
直观上可以有以下推论(其实是有条件的,但是这里先忽略严格性):
各阶矩相等
⟹
\implies
⟹各个特征相等
⟹
\implies
⟹分布相同
2 特征函数
随机变量 X X X的特征函数定义为:
ϕ X ( t ) = E [ e i t X ] \phi _X(t)=E[e^{itX}] ϕX(t)=E[eitX]
为什么这么定义呢?首先,e^{itX}的泰勒级数为:
e i t X = 1 + i t X 1 − t 2 X 2 2 ! + . . . + ( i t ) n X n n ! e^{itX}=1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!} eitX=1+1itX−2!t2X2+...+n!(it)nXn
所以代入可以推出:
$\phi _X(t) = E[e^{itX}] $
=
E
(
1
+
i
t
X
1
−
t
2
X
2
2
!
+
.
.
.
+
(
i
t
)
n
X
n
n
!
)
\quad\quad\quad\quad =E(1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!})
=E(1+1itX−2!t2X2+...+n!(it)nXn)
=
E
(
1
)
+
E
(
i
t
X
1
)
−
E
(
t
2
X
2
2
!
)
+
.
.
.
+
E
(
(
i
t
)
n
X
n
n
!
)
\quad\quad\quad\quad =E(1)+E({itX\over 1})-E({t^2X^2\over 2!})+...+E({(it)^nX^n\over n!})
=E(1)+E(1itX)−E(2!t2X2)+...+E(n!(it)nXn)
=
1
+
i
t
E
[
X
]
1
−
t
2
E
[
X
2
]
2
!
+
.
.
.
+
(
i
t
)
n
E
[
X
n
]
n
!
\quad\quad\quad\quad =1+{itE[X]\over 1}-{t^2E[X^2]\over 2!}+...+{(it)^nE[X^n]\over n!}
=1+1itE[X]−2!t2E[X2]+...+n!(it)nE[Xn]
所以根据以上推导可以看出,特征函数包含了分布函数的所有矩。我们可以进一步完善刚才的结论:
ϕ
X
(
t
)
\phi_X(t)
ϕX(t)相等
⟹
\implies
⟹各阶矩相等
⟹
\implies
⟹各个特征相等
⟹
\implies
⟹分布相同
四、期望:
期望反映了函数 f ( x ) f(x) f(x)在某个分布 P ( x ) P(x) P(x)下的平均表现,记为: E x ∼ P [ f ( x ) ] = ∫ p ( x ) f ( x ) d x E_{x\sim P}[f(x)]=\int p(x)f(x)dx Ex∼P[f(x)]=∫p(x)f(x)dx
五、协方差与相关系数:
协方差反映了两个变量之间线性相关的强度,记为:
C
o
v
(
f
(
x
)
,
g
(
x
)
)
=
E
[
(
f
(
x
)
−
E
[
f
(
x
)
]
)
(
g
(
x
)
−
E
[
g
(
x
)
]
)
Cov(f(x),g(x))=E[(f(x)-E[f(x)])(g(x)-E[g(x)])
Cov(f(x),g(x))=E[(f(x)−E[f(x)])(g(x)−E[g(x)])
相关系数
ρ
x
y
\rho _{xy}
ρxy将每个变量归一化,只衡量变量间的相关性,不关注变量尺度大小,公式如下:
ρ
x
y
=
C
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
\rho _{xy}={Cov(X,Y)\over \sqrt{D(X)}\sqrt{D(Y)}}
ρxy=D(X)D(Y)Cov(X,Y)
相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差,所以:
- 它也可以反映两个变量变化时是同向还是反向,如果同向变化为正,如果反向变化为负。
- 由于它是标准化后的协方差,因此更重要的特性是:它消除了两个变量变化幅度的影响,而只是单纯反映两个变量每单位变化时的相似程度。
进而可以得到如下规律:
- 当两个变量相关系数为1时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍,你变小一倍,我也变小一倍。也即是完全正相关。
- 随着两个变量相关系数的不断减小,两个变量变化时的相似度也变小,当相关系数为0时,两个变量的变化过程没有任何相似度,也即两个变量无关。
- 当相关系数继续变小,小于0时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。
- 当相关系数为-1时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍,你变小一倍,我变大一倍。也即是完全负相关。