概率论基本概念

最新推荐文章于 2023-04-03 19:12:08 发布

你回到了你的家

最新推荐文章于 2023-04-03 19:12:08 发布

阅读量900

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/kking_edc/article/details/106365070

版权

机器学习专栏收录该内容

9 篇文章 1 订阅

订阅专栏

一、随机变量独立同分布：

随机变量X1和X2独立，是指X1的取值不影响X2的取值，X2的取值也不影响X1的取值。
随机变量X1和X2同分布，意味着X1和X2具有相同的概率密度函参数，对离散型随机变量具有相同的概率函数，对连续型随机变量具有相同的概率密度函数，分布函数，均值，方差和标准差。
一般来说，在相同条件下，进行两次独立试验，则这两次实验结果所对应的随机变量是独立同分布的。比如，将一枚质地均匀的硬币抛掷两次，设X1为第一次抛硬币的结果，X2为第二次抛硬币的结果，则X1和X2独立同分布。

https://wenku.baidu.com/view/f03938c158f5f61fb73666df.html

二、极大似然估计：

2.1 似然与概率的区别和联系：

似然函数的定义：
它是给定联合样本值 $X$ 下关于（未知）参数 $\theta$ 的函数：
$L(\theta |x)=f(x|\theta )$

$x$ 是指联合样本随机变量 $X$ 的特定取值
$\theta$ 指未知参数，它属于参数空间
$f(x|\theta )$ 是一个密度函数，特别地，它表示（给定） $\theta$ 下关于联合样本值 $x$ 的联合密度函数

所以从定义上，似然函数和密度函数是完全不同的两个数学对象：前者是关于 $\theta$ 的函数，后者是关于 $x$ 的函数。所以这里的等号 $=$ 理解为函数值形式的相等，而不是两个函数本身是同一函数（根据函数相等的定义，函数相等当且仅当定义域相等并且对应关系相等）。

两者的联系：

如果 $X$ 是离散的随机向量，那么其概率密度函数 $f(x|\theta)$ 可以改写为 $f(x|\theta)=P_{\theta}(X=x)$ ，即代表了在参数 $\theta$ 下向量 $X$ 取到值 $x$ 的可能性，并且，如果我们发现
$L(\theta _1|x)=P_{\theta _1}(X=x)>P_{\theta_2}(X=x)=L(\theta_2|x)$
那么似然函数就反应出这样一个朴素推测，在参数 $\theta_1$ 下向量 $X$ 取到值 $x$ 的可能性大于在参数 $\theta_2$ 下向量 $X$ 取到值 $x$ 的可能性。换句话说，我们更有理由相信（相对于 $\theta_2$ 来说） $\theta_1$ 可能是真实值，这里的可能性由概率来刻画。
如果 $X$ 是连续的随机变量，那么其密度函数 $f(x|\theta)$ 本身（如果在 $x$ 连续的话）在 $x$ 处的概率为0，为了方便考虑一维情况：给定一个充分小的 $\epsilon>0$ ，那么随机变量 $X$ 取值在 $(x-\epsilon,x+\epsilon)$ 的区间内的概率为
$P_{\theta}(x-\epsilon<X<x+\epsilon)=\int_{x-\epsilon}^{x+\epsilon}f(x\theta)dx\approx2\epsilon f(x|\theta)=2\epsilon L(\theta|x)$
并且在两个参数未知的情况下就可以约掉 $2\epsilon$ ，所以和离散状态下的理解类似。

以上说明概率（密度）表达给定 $\theta$ 下样本取值取到 $X = x$ 的可能性，而似然表达了给定样本 $X = x$ 下参数 $\theta_1$ （相对于另外的参数 $\theta_2$ ）为真实值的可能性。我们总是对随机变量的取值谈概率，而在非贝叶斯统计的角度下，参数是一个实数而非随机变量，所以我们一般不谈一个参数的概率。

可以将 $p(x|\theta)$ 理解为一个有两个变量的函数，如果将 $\theta$ 设为常量，那就会得到一个概率函数（关于 $x$ 的函数；如果将 $x$ 设为常量就可以得到似然函数（关于 $\theta$ 的函数）。

以一个例子来理解：

有一个硬币，它有θ的概率会正面向上，有1-θ的概率反面向上。θ是存在的，但是你不知道它是多少。为了获得θ的值，你做了一个实验：将硬币抛10次，得到了一个正反序列：x=HHTTHTHHHH。
无论θ的值是多少，这个序列的概率值为 θ⋅θ⋅(1-θ)⋅(1-θ)⋅θ⋅(1-θ)⋅θ⋅θ⋅θ⋅θ = θ⁷ (1-θ)³
比如，如果θ值为0，则得到这个序列的概率值为0。如果θ值为1/2，概率值为1/1024。
但是，我们应该得到一个更大的概率值，所以我们尝试了所有θ可取的值，画出了下图：
在这里插入图片描述
注意横坐标是 $\theta$ ，这个曲线就是 $\theta$ 的似然函数，通过在 $X = x$ 的已知条件下，来估计 $\theta$ 的值。
如图所以，最有可能的假设是在 $\theta=0.7$ 的时候取到，这个就是极大似然估计的取值。
因为这里仅仅试验了一次，得到的样本太少，所以最终求出的极大似然值偏差较大，如果经过多次试验，扩充样本空间，则最终求得的极大似然估计就会接近真实值0.5。

https://www.zhihu.com/question/54082000

2.2 极大似然估计的原理

极大似然的基本思想是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：极大似然估计法是建立在极大似然原理基础上的一个统计方法，提供了一种通过给定观测数据来评估模型参数的方法：即“模型已定，参数未定”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

似然函数：
假设样本集中的样本都是独立同分布，样本集D中包含N个样本，记为： $D={x_1,x_2,...,x_N}$
联合概率密度函数 $p(D|\theta)$ 称为相对于 ${x_1,x_2,...,x_N}$ 的 $\theta$ 的似然函数 $l(\theta )$ ：
$l(\theta )=p(D|\theta )=p(x_1,x_2,....,x_N|\theta )=\prod_{i=1}^Np(x_i|\theta )$

如果 $\hat{\theta}$ 是参数空间中能使似然函数 $l(\theta)$ 最大的 $\theta$ 值，则 $\hat{\theta}$ 应该是“最可能”的参数值，那么 $\hat{\theta}$ 就是 $\theta$ 的极大似然估计量，它是一个样本集的函数，记作：
$\hat{\theta}=d(x_1,x_2,...,x_N)=d(D)$

求解极大似然函数：
$\hat{\theta}=argmax_{\theta}l(\theta)=argmax_{\theta}\prod_{i=1}^Np(x_i|\theta)$
在实际中为了便于分析，定义了对数似然函数
$H(\theta )=lnl(\theta )$
$\hat{\theta}=argmax_{\theta}H(\theta)=argmax_{\theta}\sum_{i=1}^Nlnp(x_i|\theta )$

https://blog.csdn.net/zengxiantao1994/article/details/72787849

三、特征函数

特征函数是随机变量分布的不同表示形式。

通常对于随机变量 $X$ 的分布，大家习惯用概率密度函数来描述，以正态分布为例
$x\backsim N(\mu ,\sigma ^2)$

其概率密度函数如下：
在这里插入图片描述
虽然概率密度函数理解起来很直观，但是确实随机变量X的分布还有另外的描述方式，比如特征函数。

1 随机变量分布的特征

随机变量的特征有如下：

期望、方差、偏态、峰态…

这些特征都和随机变量的“矩”有关系

期望： $\mu = E(X)$ ，其中 $E (X)$ 是一阶矩
方差： $\sigma ^2=E(X^2)-(E(X))^2$ ，其中 $E(X^2)$ 是二阶矩
偏态： $Skewness={E[X^3]-3\mu \sigma ^2 -\mu ^3\over \sigma ^3}$

直观上可以有以下推论（其实是有条件的，但是这里先忽略严格性）：
各阶矩相等 $\implies$ 各个特征相等 $\implies$ 分布相同

2 特征函数

随机变量 $X$ 的特征函数定义为：

$\phi _X(t)=E[e^{itX}]$

为什么这么定义呢？首先，e^{itX}的泰勒级数为：

$e^{itX}=1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!}$

所以代入可以推出：

$\phi _X(t) = E[e^{itX}] $
$\quad\quad\quad\quad =E(1+{itX\over 1}-{t^2X^2\over 2!}+...+{(it)^nX^n\over n!})$
$\quad\quad\quad\quad =E(1)+E({itX\over 1})-E({t^2X^2\over 2!})+...+E({(it)^nX^n\over n!})$
$\quad\quad\quad\quad =1+{itE[X]\over 1}-{t^2E[X^2]\over 2!}+...+{(it)^nE[X^n]\over n!}$

所以根据以上推导可以看出，特征函数包含了分布函数的所有矩。我们可以进一步完善刚才的结论：
$\phi_X(t)$ 相等 $\implies$ 各阶矩相等 $\implies$ 各个特征相等 $\implies$ 分布相同

四、期望：

期望反映了函数 $f (x)$ 在某个分布 $P (x)$ 下的平均表现，记为： $E_{x\sim P}[f(x)]=\int p(x)f(x)dx$

五、协方差与相关系数：

协方差反映了两个变量之间线性相关的强度，记为：
$C o v (f (x), g (x)) = E [(f (x) - E [f (x)]) (g (x) - E [g (x)])$

相关系数 $\rho _{xy}$ 将每个变量归一化，只衡量变量间的相关性，不关注变量尺度大小，公式如下：
$\rho _{xy}={Cov(X,Y)\over \sqrt{D(X)}\sqrt{D(Y)}}$
相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差，所以：