数据分析之统计分析基础(5)

最新推荐文章于 2022-04-25 01:01:02 发布

su_n_y_

最新推荐文章于 2022-04-25 01:01:02 发布

阅读量2.3k

点赞数

分类专栏：统计分析文章标签：数据分析统计分析

本文链接：https://blog.csdn.net/sunny1235435/article/details/114059306

版权

统计分析专栏收录该内容

5 篇文章 1 订阅

订阅专栏

概率分布

分布：一个变量取值的任意集合。分为离散型概率分布和连续型概率分布两种。
离散型随机变量：可以取有限多个数值或无限可数多个数值的随机变量。
连续型随机变量：可以在某一区间或多个区间内任意取值的随机变量。
随机变量的概率分布(probability distribution)是描述随机变量取不同值的概率。

离散型概率分布

前言

数学期望：对随机变量中心位置的一种度量。
$E(X)=\mu=\sum{xf(x)}$
方差：描述随机变量取值的变异性。
$Var(X)=\sigma^2=\sum{(x-\mu)^2f(x)}$
标准差：度量了数据与数据中心的数学期望的距离。
$\sigma=\sqrt{Var(x)}$
通用公式： $E (a X + b) = a E (X) + b$ $Var(aX+b)=a^2Var(X)$
独立观测值：
如果 $x_1,x_2,\dots,x_n$ 是随机变量 $x$ 的独立观测值，则 $E(x_1+x_2+\dots+x_n)=nE(X)$ $Var(x_1+x_2+\dots+x_n)=nVar(X)$
$X$ 和 $Y$ 是独立随机变量： $E (X + Y) = E (X) + E (Y)$ $E (X - Y) = E (X) - E (Y)$ $V a r (X + Y) = V a r (X) + V a r (Y)$ $V a r (X - Y) = V a r (X) + V a r (Y)$

离散均匀分布(Uniform Distribution)

假设 $X$ 有 $k$ 个取值： $x_1,x_2,\dots,x_k$ 则均匀分布的概率为： $P(X=x_i)=\frac{1}{k}$

两点分布（伯努利分布，Bernoulli Distribution）

如果随机变量 $X$ 只取0和1两个值，并且相应的概率为： $P(x)=p^x(1-p)^1-x= \begin{cases} p,x=1 \\ 1-p,x=0 \end{cases}$
则称随机变量 $X$ 服从参数为 $p$ 的伯努利分布。
$E (X) = p$ $E(X^2)=p$ $V a r (X) = p (1 - p)$

二项分布(Binomial Distribution)

二项分布是多次伯努利分布实验的概率分布。 $n$ 次试验， $j$ 次成功为1，二项分布为：
$P(X=k)=C^k_np^k(1-p)^{n-k},C^k_n=\frac{n!}{k!(n-k)!}$ $E (X) = n p$ $V a r (X) = n p (1 - p)$

泊松分布(Poisson Distribution)

泊松分布和指数分布：10分钟教程
泊松分布就是描述某段时间内，事件具体的发生概率。泊松分布的公式可以从二项分布推断出来。
假设已知事件在单位时间（或者单位面积）内发生的平均次数为 $\lambda$ ，则泊松分布描述了：事件在单位时间（或者单位面积）内发生的具体次数为 $k$ 的概率。
$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,\dots$ $E(X)=\lambda$ $Var(X)=\lambda$

超几何分布(Hypergeometric Distribution)

超几何分布是统计学上一种离散概率分布。它描述了从有限 $N$ 个物件（其中包含 $M$ 个指定种类的物件）中抽出 $n$ 个物件，成功抽出该指定种类的物件的次数（不放回）。称为超几何分布，是因为其形式与“超几何函数”的级数展式的系数有关。超几何分布中的参数是 $N$ , $M$ , $n$ ，上述超几何分布记作 $X H (n, M, N)$ . $P(X=k)=\frac{C^k_MC^{n-k}_{N-M}}{C^n_N},k=0,1,2,\dots,min(n,M)$ $E(X)=\frac{nM}{N}$ $var(X)=\frac{nM}{N}(1-\frac{M}{N})\frac{N-n}{N-1}$

连续型概率分布

数学期望： $E(X)=\int_{- \infty}^{+ \infty}{xf(x)}dx$

连续均匀分布(Uniform Distribution)

公式有时间再补充

假设 $X$ 在 $[a, b]$ 上均匀分布，则其
概率密度函数为： $\left\{\begin{aligned} \frac{1}{b-a},a\leq x \leq b\\ 0,other \end{aligned}\right.$

分布函数： $\left\{\begin{aligned} 0,x<a \\ \frac{x-a}{b-a},a\leq x < b\\ 1,x \geq b \end{aligned}\right.$

数学期望： $E(X)=\frac{a+b}{2}$

方差： $Var(x)=\frac{(b-a)^2}{2}$

指数分布

概率密度函数： $\left\{\begin{aligned} \lambda e^{-\lambda x},x \geq 0\\ 0,x<0 \end{aligned}\right.$

分布函数： $\left\{\begin{aligned} 1-\lambda e^{-\lambda x},x \geq 0\\ 0,x<0 \end{aligned}\right.$

数学期望： $E(X)=\frac{1}{\lambda}$

方差： $Var(X)=\frac{1}{\lambda ^2}$

正态分布(Normal Distribution，高斯分布Gaussian Distribution)

在求二项分布的渐近公式中得到。正态曲线呈钟型，两头低，中间高，左右对称因其曲线呈钟形，因此人们又经常称之为钟形曲线。
一维正态分布：
概率密度函数： $p(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$ , $\mu$ 为位置参数，是数学期望； $\sigma$ 是尺度参数，是标准差。则 $X\sim N(\mu, \sigma^2)$ .
标准正态分布：
概率密度函数： $p(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})$ ，此时 $\mu=0, \sigma=1$
定理：
若 $X\sim N(\mu,\sigma^2)$ ，则 $Y=\frac{X-\mu}{\sigma}\sim N(0,1)$

伽马分布

伽马函数： $\Gamma=\int_{0}^{\infty}{x^{\alpha-1}e^{-x}}dx,\alpha>0$

性质：
1、 $\Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi}$

2、 $\Gamma(\alpha+1)=\alpha\Gamma(\Gamma)$ , 对于自然数 $n$ ，有 $\Gamma(n)=n!.$

3、 $\int_{0}^{\infty}{x^{\alpha-1}e^{-\lambda x}}dx=\Gamma(\alpha)/\lambda^{\alpha}$

概率密度函数： $\left\{\begin{aligned} \frac{\lambda ^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x > 0\\ 0,x\leq0 \end{aligned}\right.$ ，其中 $\alpha>0$ 称为形状参数， $\lambda>0$ 称为尺度参数。

数学期望： $E(X)=\frac{\alpha}{\lambda}$

与指数分布的关系： $Ga(1,\lambda)$ 为指数分布。

与卡方分布的关系： $Ga(\frac{n}{2},\frac{1}{2})$ ， $n$ 为自然数称为自由度为 $n$ 的卡方分布。

贝塔分布

贝塔函数： $\beta(a,b)=\int_{0}^{1}{x^{\alpha-1}(1-x)^{b-1}}dx,a>0,b>0$ .

性质：
$\beta(a,b)=\beta(b,a)$

$\beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$

密度函数： $p(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{\alpha-1}(1-x)^{b-1},0\leq x \leq 1$ ，其中 $a$ 和 $b$ 都是形状参数，且都为正。 $X\sim Be(a,b)$ .

数学期望： $E(X)=\frac{a}{a+b}$

与均匀分布的关系： $B e (1, 1)$

卡方分布

自由度为 $n$ 的 $\chi^2$ 分布的密度函数： $p(x)=\frac{1}{\Gamma(\frac{n}{2})2^\frac{n}{2}}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},x>0$

数学期望： $E (X) = n$

t分布(t-distribution)

如果 $X\sim N(0,1)$ , $Y\sim \chi^2(n)$ , 且 $X$ 和 $Y$ 独立，则 $t=\frac{X}{\sqrt{\frac{Y}{n}}}$ 的分布称为自由度为 $n$ 的 $t$ 分布。记为 $t (n) .$

F分布

如果 $X\sim \chi^2(n)$ , $Y\sim \chi^2(m)$ , 且 $X$ 和 $Y$ 独立，则 $F=\frac{\frac{X}{n}}{\frac{Y}{m}}$ 的分布称为自由度为 $n$ 和 $m$ 的 $F$ 分布。记为 $F (n, m)$ .

拉普拉斯分布

拉普拉斯分布
密度函数： $p(x|\mu,\lambda)=\frac{1}{2\lambda}e^{-\frac{|x-\mu|}{\lambda}}$ ，其中 $\mu$ 为位置参数； $\lambda$ 是尺度参数。

数学期望： $E(X)=\mu$

方差： $Var(X)=2\lambda^{2}$

拉普拉斯分布的密度函数，可以看作是两个指数分布函数的概率密度“背靠背”拼接在一起。
性质：
1、如果 $X\sim Exp(\lambda),Y\sim Exp(\mu)$ ，那么 $\lambda X - \mu Y\sim Laplace(0,1)$ ；

2、如果 $X,Y\sim U(0,1)$ ，那么 $ln\frac{X}{Y}\sim Laplace(0,1)$ ；

3、如果 $X_{i}\sim Laplace(\mu,\lambda)$ ，那么 $\frac{2}{\lambda}\sum_{i=1}^{n}{|X_i-\mu|}\sim chi^{2}(2n)$ ；

4、如果 $X,Y\sim Laplace(\mu, \lambda)$ ，那么 $\frac{|X-\mu|}{|Y-\mu|}\sim F(2,2)$

狄利克雷分布

浅谈狄利克雷分布——Dirichlet Distribution
Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）

多元贝塔分布，狄利克雷分布是贝塔分布的扩展。定义多元连续随机变量 $\theta=\{\theta_1,\theta_2,\dots,\theta_k\}$ 的概率密度函数为 $p(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^k{\alpha_i})}{\prod_{i=1}^k{\Gamma(\alpha_i)}}\prod_{i=1}^k{\theta_i^{\alpha_i-1}},\alpha_i>0,i=1,2,\dots,k$

其中 $\sum_{i=1}^k{\theta_i}=1,\theta_i\geq 0$ ，则称随机变量 $\theta$ 服从参数为 $\alpha$ 的狄利克雷分布，记作 $\theta\sim Dir(\alpha)$ 。

定义
$B(\alpha)=\frac{\Gamma(\sum_{i=1}^k{\alpha_i})}{\prod_{i=1}^k{\Gamma(\alpha_i)}}$

$B(\alpha)$ 称为多元贝塔函数或扩展贝塔函数，其积分表示为： $\int{\prod_{i=1}^{k}{\theta_i^{\alpha_i-1}}}d\theta$ 。

狄拉克分布

在这里插入图片描述

su_n_y_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据分析之统计分析基础(5)

文章目录概率分布离散型概率分布前言离散均匀分布(Uniform Distribution)两点分布（伯努利分布，Bernoulli Distribution）二项分布(Binomial Distribution)泊松分布(Poisson Distribution)超几何分布(Hypergeometric Distribution)连续型概率分布连续均匀分布(Uniform Distribution)指数分布正态分布(Normal Distribution，高斯分布Gaussian Distribution)
复制链接

扫一扫