统计学习第四周_在同一组条件下,如果每次试验-CSDN博客

本文链接：https://blog.csdn.net/long636/article/details/103192285

本文深入探讨了统计学习的基本概念，包括随机变量、古典概率、条件概率等，并详细讲解了离散与连续变量的特性及概率分布。文章还介绍了几种重要的概率分布模型，如二项分布、泊松分布和正态分布，以及它们的应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

统计学习第四周

一、基本概念

1.随机变量

概念：在同一组条件下，如果每次试验可能出现的结果，并且所有结果都可以列出来，即X的所有可能值为
$x_1，x_2,x_3,...，x_n都能例举出来，而且X所有的可能值x_1,x_2,...,x_n具有确定的概率 P(x_1),p(x_2),p(x_3),...,p(x_n),其中P(x_i)=p(X=x_i),$
称为概率函数，则X称为P(X)的随机变量，P(X)称为随机变量X的概率函数。

2.古典概率

超几何分布，即设有N件产品，其中M件次品，现从中任取n件（n<=N）,则在这n件中所含的次品件数X是一个随机变量，X的概率函数为：，,m为任取n件中次品的概率。
$P(X=m)=\frac{C_M^nC_{N-M}^{n-m}}{C_N^n}$

3.条件概率

概念：设A,B是两个事件，且在P(B)>0，在事件B发生的条件下，事件A发生的条件概率为
$P (A ∣ B) = P (A B) / P (B)$

4.离散变量discrete

概念：如果随机变量X的所有可能的取值都可以一一列举出来，则称X为离散型随机变量。
$X,x_1,x_2,...,x_n,对应的概率为p_1,p_2,...,p_n,即 P(X=x_i)=p_i (i=1,2,...,n)$

$\sum_{i=1}^{n}p_i=1,概率分布 probability distribution$
1-1 离散随机变量的期望和方差

1-1-1 期望
$E(X)=x_1p_1+x_2p_2+...+x_np_n=\sum_{i=1}^{n}x_ip_i$
1-1-2 方差和标准差
$方差\sigma^2=D(X)=E(X-E(X))^2$
方差为(X-E(X))^2的数学期望，衡量离散程度。
$标准差\sigma=\sqrt{D(X)}$
离散系数：计算比较不同期望值的总体之间的离中趋势。
$V=\frac{\sigma}{E(X)}$
(1)0-1分布非彼几次 p 1-p

(2)均匀分布各个P相同

5.连续变量 continuous

概念：如果随机变量X的所有取值无法逐个列举出来，而是取数轴上某一区间内的任一点，则称X为连续性随机变量。
$\int{f(x)}dx$
概率密度函数，对应的概率则是：
$P(a<X<b)=\int_{a}^{b}f(x)dx$
连续型随机变量的概率也可以用分布函数F（x）表示
$F(x)=P(X\leq{x})=\int_{-\infty}^{x}f(t)dt , -\infty<x<+\infty$

$f (x) = F^{'} (x)$

期望：
$E(X)=\int_{-\infty}^{+\infty}xf(x)dx = u$
方差:
$D(X)=\int_{-\infty}^{+\infty}[x-E(x)]^2f(x)dx=\sigma^2$

7.大数定律

偶然中的必然。

7.1切比雪夫大数定律：随着样本容量的增加，样本均值更接近与总体平均值。切比雪夫大数定理并未要求各个随机变量同分布。

7.2伯努利大数定律

7.3辛钦大数定律，常用的大数定律

二、离散变量概率分布

1.二项分布

以X表示n次重复独立实验中事件A出现的次数，：
$P({X=x})=C_n^xp^xq^{n-x}, x=0,1,...,n$
n,p ,记作X~B(n,p)
$C_N^X=\frac{n!}{x!(n-x)!}$
二项分布的期望值和方差是：
$E (X) = n p, D (X) = n p q$
当n=1时，二项分布变为0-1分布：
$P(X=x)=p^xq^{1-x}, x=0,1$
2.伯努利分布

伯努利分布又称为0-1分布，当n=1时，二项分布变为0-1分布：
$P(X=x)=p^xq^{1-x}, x=0,1$

3.泊松分布
$P(X)=\frac{\lambda^xe^{-\lambda}}{x!}, x=0,1,...$

$\lambda 为给定时间间隔内事件的平均数。$

泊松分布的期望和方差
$E(X)=\lambda , D(X)=\lambda$
泊松分布可以描述的随机变量有：

（1）某企业每月发生事故的次数

（2）单位时间内达到某一服务柜台需要服务的顾客人数

（3）某种仪器每月出现故障的次数。

在n重伯努利实验中，当成功概率很小时p->0,实验次数很大时，二项分布近似等于泊松分布。
$C_n^xp^xq^{n-x}\approx\frac{\lambda^xe^{-\lambda}}{x!}$
当
$p\leq0.25,n < 20, np\leq 5，时用泊松分布近似二项分布的效果良好。$

三、分布的形状

1.均匀分布
各个概率均相同的分布
$均匀分布的概率密度函数f(x)=\begin{cases} \frac{1}{b-a} ,a<x<b\\0 ,x<a,x>b \end{cases}$
则
$P(c\leq{x}\leq{c+l})=\frac{l}{b-a} ,(a\leq{c}<c+l\leq{b})$
2.正态分布

概念：如果随机变量X的概率密度函数为：
$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-u)^2} ,-\infty<x<+\infty$
则称X服从正态分布，记作
$X-N（u,\sigma^2）,其中-\infty<x<+\infty ,\sigma>0,u为随机变量X的均值，\sigma为随机变量X的标准差。$

$当u=0,\sigma=1,时，正态分布为标准正在分布。f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}$

标准正太分布的重要性在于，任何一个一般的正态分布都可以通过线性变换转换为标准正态分布，
$X-N(u,\sigma^2),则Z=\frac{X-u}{\sigma} 符合N（0，1）转化公式$
正态分布在质量管理中作用，全面质量管理中
$3\sigma ,P(u-3\sigma<x<u+3\sigma)=\Phi(3)-\Phi(-3)=0.9973$
根据小事件概率，落在该区间外的概率进位0.27%。

在六西格玛管理质量标准意味着合格率需要达到99.9999998%，即不合格为十亿分之二。

3.指数分布
指数分布和泊松分布结合起来共同解决排队问题。怕松分布：过去1小时有5个客人结账，接下来1小时有8个人来结账的概率是多少；指数分布则是，过去20分钟有1个人来结账，接下来10分钟内有人来结账的概率是多少。
$f(x)=\begin{cases} 0,x<0\\ \frac{1}{u}e^{-\frac{1}{u}x} =\lambda e^{-\lambda x}, x\geq0\end{cases}$
x表示给定的时间长度，u表示随机事件发生一次的平均等待时间
$\lambda是u的倒数，可以解释为单位时间内随机事件发生的次数。$

学习记录笔记
print(123)
System.out.println("adu");