统计学习第四周

本文深入探讨了统计学习的基本概念,包括随机变量、古典概率、条件概率等,并详细讲解了离散与连续变量的特性及概率分布。文章还介绍了几种重要的概率分布模型,如二项分布、泊松分布和正态分布,以及它们的应用场景。
摘要由CSDN通过智能技术生成
统计学习第四周
一、基本概念

1.随机变量

概念:在同一组条件下,如果每次试验可能出现的结果,并且所有结果都可以列出来,即X的所有可能值为
x 1 , x 2 , x 3 , . . . , x n 都 能 例 举 出 来 , 而 且 X 所 有 的 可 能 值 x 1 , x 2 , . . . , x n 具 有 确 定 的 概 率 P ( x 1 ) , p ( x 2 ) , p ( x 3 ) , . . . , p ( x n ) , 其 中 P ( x i ) = p ( X = x i ) , x_1,x_2,x_3,...,x_n都能例举出来,而且X所有的可能值x_1,x_2,...,x_n具有确定的概率 P(x_1),p(x_2),p(x_3),...,p(x_n),其中P(x_i)=p(X=x_i), x1x2,x3,...xnXx1,x2,...,xnP(x1),p(x2),p(x3),...,p(xn),P(xi)=p(X=xi),
称为概率函数,则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。

2.古典概率

超几何分布,即设有N件产品,其中M件次品,现从中任取n件(n<=N),则在这n件中所含的次品件数X是一个随机变量,X的概率函数为:,,m为任取n件中次品的概率。
P ( X = m ) = C M n C N − M n − m C N n P(X=m)=\frac{C_M^nC_{N-M}^{n-m}}{C_N^n} P(X=m)=CNnCMnCNMnm

3.条件概率

概念:设A,B是两个事件,且在P(B)>0,在事件B发生的条件下,事件A发生的条件概率为
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(AB)=P(AB)/P(B)

4.离散变量discrete

概念:如果随机变量X的所有可能的取值都可以一一列举出来,则称X为离散型随机变量。
X , x 1 , x 2 , . . . , x n , 对 应 的 概 率 为 p 1 , p 2 , . . . , p n , 即 P ( X = x i ) = p i ( i = 1 , 2 , . . . , n ) X,x_1,x_2,...,x_n,对应的概率为p_1,p_2,...,p_n,即 P(X=x_i)=p_i (i=1,2,...,n) X,x1,x2,...,xn,p1,p2,...,pn,P(X=xi)=pi(i=1,2,...,n)

∑ i = 1 n p i = 1 , 概 率 分 布 p r o b a b i l i t y d i s t r i b u t i o n \sum_{i=1}^{n}p_i=1,概率分布 probability distribution i=1npi=1,probabilitydistribution
1-1 离散随机变量的期望和方差

1-1-1 期望
E ( X ) = x 1 p 1 + x 2 p 2 + . . . + x n p n = ∑ i = 1 n x i p i E(X)=x_1p_1+x_2p_2+...+x_np_n=\sum_{i=1}^{n}x_ip_i E(X)=x1p1+x2p2+...+xnpn=i=1nxipi
1-1-2 方差和标准差
方 差 σ 2 = D ( X ) = E ( X − E ( X ) ) 2 方差\sigma^2=D(X)=E(X-E(X))^2 σ2=D(X)=E(XE(X))2
方差为(X-E(X))^2的数学期望,衡量离散程度。
标 准 差 σ = D ( X ) 标准差\sigma=\sqrt{D(X)} σ=D(X)
离散系数:计算比较不同期望值的总体之间的离中趋势。
V = σ E ( X ) V=\frac{\sigma}{E(X)} V=E(X)σ
(1)0-1分布 非彼几次 p 1-p

(2)均匀分布 各个P相同

5.连续变量 continuous

概念:如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,则称X为连续性随机变量。
∫ f ( x ) d x \int{f(x)}dx f(x)dx
概率密度函数,对应的概率则是:
P ( a < X < b ) = ∫ a b f ( x ) d x P(a<X<b)=\int_{a}^{b}f(x)dx P(a<X<b)=abf(x)dx
连续型随机变量的概率也可以用分布函数F(x)表示
F ( x ) = P ( X ≤ x ) = ∫ − ∞ x f ( t ) d t , − ∞ < x < + ∞ F(x)=P(X\leq{x})=\int_{-\infty}^{x}f(t)dt , -\infty<x<+\infty F(x)=P(Xx)=xf(t)dt,<x<+

f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F(x)

期望:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x = u E(X)=\int_{-\infty}^{+\infty}xf(x)dx = u E(X)=+xf(x)dx=u
方差:
D ( X ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 f ( x ) d x = σ 2 D(X)=\int_{-\infty}^{+\infty}[x-E(x)]^2f(x)dx=\sigma^2 D(X)=+[xE(x)]2f(x)dx=σ2

7.大数定律

偶然中的必然。

7.1切比雪夫大数定律:随着样本容量的增加,样本均值更接近与总体平均值。切比雪夫大数定理并未要求各个随机变量同分布。

7.2伯努利大数定律

7.3辛钦大数定律,常用的大数定律

二、离散变量概率分布

1.二项分布

以X表示n次重复独立实验中事件A出现的次数,:
P ( X = x ) = C n x p x q n − x , x = 0 , 1 , . . . , n P({X=x})=C_n^xp^xq^{n-x}, x=0,1,...,n P(X=x)=Cnxpxqnx,x=0,1,...,n
n,p ,记作X~B(n,p)
C N X = n ! x ! ( n − x ) ! C_N^X=\frac{n!}{x!(n-x)!} CNX=x!(nx)!n!
二项分布的期望值和方差是:
E ( X ) = n p , D ( X ) = n p q E(X)=np , D(X)=npq E(X)=np,D(X)=npq
当n=1时,二项分布变为0-1分布:
P ( X = x ) = p x q 1 − x , x = 0 , 1 P(X=x)=p^xq^{1-x}, x=0,1 P(X=x)=pxq1x,x=0,1
2.伯努利分布

伯努利分布又称为0-1分布,当n=1时,二项分布变为0-1分布:
P ( X = x ) = p x q 1 − x , x = 0 , 1 P(X=x)=p^xq^{1-x}, x=0,1 P(X=x)=pxq1x,x=0,1

3.泊松分布
P ( X ) = λ x e − λ x ! , x = 0 , 1 , . . . P(X)=\frac{\lambda^xe^{-\lambda}}{x!}, x=0,1,... P(X)=x!λxeλ,x=0,1,...

λ 为 给 定 时 间 间 隔 内 事 件 的 平 均 数 。 \lambda 为给定时间间隔内事件的平均数。 λ

泊松分布的期望和方差
E ( X ) = λ , D ( X ) = λ E(X)=\lambda , D(X)=\lambda E(X)=λ,D(X)=λ
泊松分布可以描述的随机变量有:

(1)某企业每月发生事故的次数

(2)单位时间内达到某一服务柜台需要服务的顾客人数

(3)某种仪器每月出现故障的次数。

在n重伯努利实验中,当成功概率很小时p->0,实验次数很大时,二项分布近似等于泊松分布。
C n x p x q n − x ≈ λ x e − λ x ! C_n^xp^xq^{n-x}\approx\frac{\lambda^xe^{-\lambda}}{x!} Cnxpxqnxx!λxeλ

p ≤ 0.25 , n < 20 , n p ≤ 5 , 时 用 泊 松 分 布 近 似 二 项 分 布 的 效 果 良 好 。 p\leq0.25,n < 20, np\leq 5,时用泊松分布近似二项分布的效果良好。 p0.25,n<20,np5

三、分布的形状

1.均匀分布
各个概率均相同的分布
均 匀 分 布 的 概 率 密 度 函 数 f ( x ) = { 1 b − a , a < x < b 0 , x < a , x > b 均匀分布的概率密度函数f(x)=\begin{cases} \frac{1}{b-a} ,a<x<b\\0 ,x<a,x>b \end{cases} f(x)={ba1,a<x<b0,x<a,x>b

P ( c ≤ x ≤ c + l ) = l b − a , ( a ≤ c < c + l ≤ b ) P(c\leq{x}\leq{c+l})=\frac{l}{b-a} ,(a\leq{c}<c+l\leq{b}) P(cxc+l)=bal,(ac<c+lb)
2.正态分布

概念:如果随机变量X的概率密度函数为:
f ( x ) = 1 σ 2 π e − 1 2 σ 2 ( x − u ) 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-u)^2} ,-\infty<x<+\infty f(x)=σ2π 1e2σ21(xu)2,<x<+
则称X服从正态分布,记作
X − N ( u , σ 2 ) , 其 中 − ∞ < x < + ∞ , σ > 0 , u 为 随 机 变 量 X 的 均 值 , σ 为 随 机 变 量 X 的 标 准 差 。 X-N(u,\sigma^2),其中-\infty<x<+\infty ,\sigma>0,u为随机变量X的均值,\sigma为随机变量X的标准差。 XNu,σ2,<x<+,σ>0,uXσX

当 u = 0 , σ = 1 , 时 , 正 态 分 布 为 标 准 正 在 分 布 。 f ( x ) = 1 2 π e − x 2 2 当u=0,\sigma=1,时,正态分布为标准正在分布。f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} u=0,σ=1,f(x)=2π 1e2x2

标准正太分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转换为标准正态分布,
X − N ( u , σ 2 ) , 则 Z = X − u σ 符 合 N ( 0 , 1 ) 转 化 公 式 X-N(u,\sigma^2),则Z=\frac{X-u}{\sigma} 符合N(0,1)转化公式 XN(u,σ2),Z=σXuN01
正态分布在质量管理中作用,全面质量管理中
3 σ , P ( u − 3 σ < x < u + 3 σ ) = Φ ( 3 ) − Φ ( − 3 ) = 0.9973 3\sigma ,P(u-3\sigma<x<u+3\sigma)=\Phi(3)-\Phi(-3)=0.9973 3σ,P(u3σ<x<u+3σ)=Φ(3)Φ(3)=0.9973
根据小事件概率,落在该区间外的概率进位0.27%。

在六西格玛管理质量标准意味着合格率需要达到99.9999998%,即不合格为十亿分之二。

3.指数分布
指数分布和泊松分布结合起来共同解决排队问题。怕松分布:过去1小时有5个客人结账,接下来1小时有8个人来结账的概率是多少;指数分布则是,过去20分钟有1个人来结账,接下来10分钟内有人来结账的概率是多少。
f ( x ) = { 0 , x < 0 1 u e − 1 u x = λ e − λ x , x ≥ 0 f(x)=\begin{cases} 0,x<0\\ \frac{1}{u}e^{-\frac{1}{u}x} =\lambda e^{-\lambda x}, x\geq0\end{cases} f(x)={0,x<0u1eu1x=λeλx,x0
x表示给定的时间长度,u表示随机事件发生一次的平均等待时间
λ 是 u 的 倒 数 , 可 以 解 释 为 单 位 时 间 内 随 机 事 件 发 生 的 次 数 。 \lambda是u的倒数,可以解释为单位时间内随机事件发生的次数。 λu

学习记录笔记
print(123)
System.out.println("adu");
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值