统计学习第四周
一、基本概念
1.随机变量
概念:在同一组条件下,如果每次试验可能出现的结果,并且所有结果都可以列出来,即X的所有可能值为
x 1 , x 2 , x 3 , . . . , x n 都 能 例 举 出 来 , 而 且 X 所 有 的 可 能 值 x 1 , x 2 , . . . , x n 具 有 确 定 的 概 率 P ( x 1 ) , p ( x 2 ) , p ( x 3 ) , . . . , p ( x n ) , 其 中 P ( x i ) = p ( X = x i ) , x_1,x_2,x_3,...,x_n都能例举出来,而且X所有的可能值x_1,x_2,...,x_n具有确定的概率 P(x_1),p(x_2),p(x_3),...,p(x_n),其中P(x_i)=p(X=x_i), x1,x2,x3,...,xn都能例举出来,而且X所有的可能值x1,x2,...,xn具有确定的概率P(x1),p(x2),p(x3),...,p(xn),其中P(xi)=p(X=xi),
称为概率函数,则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。
2.古典概率
超几何分布,即设有N件产品,其中M件次品,现从中任取n件(n<=N),则在这n件中所含的次品件数X是一个随机变量,X的概率函数为:,,m为任取n件中次品的概率。
P ( X = m ) = C M n C N − M n − m C N n P(X=m)=\frac{C_M^nC_{N-M}^{n-m}}{C_N^n} P(X=m)=CNnCMnCN−Mn−m
3.条件概率
概念:设A,B是两个事件,且在P(B)>0,在事件B发生的条件下,事件A发生的条件概率为
P ( A ∣ B ) = P ( A B ) / P ( B ) P(A|B)=P(AB)/P(B) P(A∣B)=P(AB)/P(B)
4.离散变量discrete
概念:如果随机变量X的所有可能的取值都可以一一列举出来,则称X为离散型随机变量。
X , x 1 , x 2 , . . . , x n , 对 应 的 概 率 为 p 1 , p 2 , . . . , p n , 即 P ( X = x i ) = p i ( i = 1 , 2 , . . . , n ) X,x_1,x_2,...,x_n,对应的概率为p_1,p_2,...,p_n,即 P(X=x_i)=p_i (i=1,2,...,n) X,x1,x2,...,xn,对应的概率为p1,p2,...,pn,即P(X=xi)=pi(i=1,2,...,n)∑ i = 1 n p i = 1 , 概 率 分 布 p r o b a b i l i t y d i s t r i b u t i o n \sum_{i=1}^{n}p_i=1,概率分布 probability distribution i=1∑npi=1,概率分布probabilitydistribution
1-1 离散随机变量的期望和方差1-1-1 期望
E ( X ) = x 1 p 1 + x 2 p 2 + . . . + x n p n = ∑ i = 1 n x i p i E(X)=x_1p_1+x_2p_2+...+x_np_n=\sum_{i=1}^{n}x_ip_i E(X)=x1p1+x2p2+...+xnpn=i=1∑nxipi
1-1-2 方差和标准差
方 差 σ 2 = D ( X ) = E ( X − E ( X ) ) 2 方差\sigma^2=D(X)=E(X-E(X))^2 方差σ2=D(X)=E(X−E(X))2
方差为(X-E(X))^2的数学期望,衡量离散程度。
标 准 差 σ = D ( X ) 标准差\sigma=\sqrt{D(X)} 标准差σ=D(X)
离散系数:计算比较不同期望值的总体之间的离中趋势。
V = σ E ( X ) V=\frac{\sigma}{E(X)} V=E(X)σ
(1)0-1分布 非彼几次 p 1-p(2)均匀分布 各个P相同
5.连续变量 continuous
概念:如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任一点,则称X为连续性随机变量。
∫ f ( x ) d x \int{f(x)}dx ∫f(x)dx
概率密度函数,对应的概率则是:
P ( a < X < b ) = ∫ a b f ( x ) d x P(a<X<b)=\int_{a}^{b}f(x)dx P(a<X<b)=∫abf(x)dx
连续型随机变量的概率也可以用分布函数F(x)表示
F ( x ) = P ( X ≤ x ) = ∫ − ∞ x f ( t ) d t , − ∞ < x < + ∞ F(x)=P(X\leq{x})=\int_{-\infty}^{x}f(t)dt , -\infty<x<+\infty F(x)=P(X≤x)=∫−∞xf(t)dt,−∞<x<+∞f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F′(x)
期望:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x = u E(X)=\int_{-\infty}^{+\infty}xf(x)dx = u E(X)=∫−∞+∞xf(x)dx=u
方差:
D ( X ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 f ( x ) d x = σ 2 D(X)=\int_{-\infty}^{+\infty}[x-E(x)]^2f(x)dx=\sigma^2 D(X)=∫−∞+∞[x−E(x)]2f(x)dx=σ2
7.大数定律
偶然中的必然。
7.1切比雪夫大数定律:随着样本容量的增加,样本均值更接近与总体平均值。切比雪夫大数定理并未要求各个随机变量同分布。
7.2伯努利大数定律
7.3辛钦大数定律,常用的大数定律
二、离散变量概率分布
1.二项分布
以X表示n次重复独立实验中事件A出现的次数,:
P ( X = x ) = C n x p x q n − x , x = 0 , 1 , . . . , n P({X=x})=C_n^xp^xq^{n-x}, x=0,1,...,n P(X=x)=Cnxpxqn−x,x=0,1,...,n
n,p ,记作X~B(n,p)
C N X = n ! x ! ( n − x ) ! C_N^X=\frac{n!}{x!(n-x)!} CNX=x!(n−x)!n!
二项分布的期望值和方差是:
E ( X ) = n p , D ( X ) = n p q E(X)=np , D(X)=npq E(X)=np,D(X)=npq
当n=1时,二项分布变为0-1分布:
P ( X = x ) = p x q 1 − x , x = 0 , 1 P(X=x)=p^xq^{1-x}, x=0,1 P(X=x)=pxq1−x,x=0,1
2.伯努利分布伯努利分布又称为0-1分布,当n=1时,二项分布变为0-1分布:
P ( X = x ) = p x q 1 − x , x = 0 , 1 P(X=x)=p^xq^{1-x}, x=0,1 P(X=x)=pxq1−x,x=0,13.泊松分布
P ( X ) = λ x e − λ x ! , x = 0 , 1 , . . . P(X)=\frac{\lambda^xe^{-\lambda}}{x!}, x=0,1,... P(X)=x!λxe−λ,x=0,1,...λ 为 给 定 时 间 间 隔 内 事 件 的 平 均 数 。 \lambda 为给定时间间隔内事件的平均数。 λ为给定时间间隔内事件的平均数。
泊松分布的期望和方差
E ( X ) = λ , D ( X ) = λ E(X)=\lambda , D(X)=\lambda E(X)=λ,D(X)=λ
泊松分布可以描述的随机变量有:(1)某企业每月发生事故的次数
(2)单位时间内达到某一服务柜台需要服务的顾客人数
(3)某种仪器每月出现故障的次数。
在n重伯努利实验中,当成功概率很小时p->0,实验次数很大时,二项分布近似等于泊松分布。
C n x p x q n − x ≈ λ x e − λ x ! C_n^xp^xq^{n-x}\approx\frac{\lambda^xe^{-\lambda}}{x!} Cnxpxqn−x≈x!λxe−λ
当
p ≤ 0.25 , n < 20 , n p ≤ 5 , 时 用 泊 松 分 布 近 似 二 项 分 布 的 效 果 良 好 。 p\leq0.25,n < 20, np\leq 5,时用泊松分布近似二项分布的效果良好。 p≤0.25,n<20,np≤5,时用泊松分布近似二项分布的效果良好。
三、分布的形状
1.均匀分布
各个概率均相同的分布
均 匀 分 布 的 概 率 密 度 函 数 f ( x ) = { 1 b − a , a < x < b 0 , x < a , x > b 均匀分布的概率密度函数f(x)=\begin{cases} \frac{1}{b-a} ,a<x<b\\0 ,x<a,x>b \end{cases} 均匀分布的概率密度函数f(x)={b−a1,a<x<b0,x<a,x>b
则
P ( c ≤ x ≤ c + l ) = l b − a , ( a ≤ c < c + l ≤ b ) P(c\leq{x}\leq{c+l})=\frac{l}{b-a} ,(a\leq{c}<c+l\leq{b}) P(c≤x≤c+l)=b−al,(a≤c<c+l≤b)
2.正态分布概念:如果随机变量X的概率密度函数为:
f ( x ) = 1 σ 2 π e − 1 2 σ 2 ( x − u ) 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-u)^2} ,-\infty<x<+\infty f(x)=σ2π1e−2σ21(x−u)2,−∞<x<+∞
则称X服从正态分布,记作
X − N ( u , σ 2 ) , 其 中 − ∞ < x < + ∞ , σ > 0 , u 为 随 机 变 量 X 的 均 值 , σ 为 随 机 变 量 X 的 标 准 差 。 X-N(u,\sigma^2),其中-\infty<x<+\infty ,\sigma>0,u为随机变量X的均值,\sigma为随机变量X的标准差。 X−N(u,σ2),其中−∞<x<+∞,σ>0,u为随机变量X的均值,σ为随机变量X的标准差。当 u = 0 , σ = 1 , 时 , 正 态 分 布 为 标 准 正 在 分 布 。 f ( x ) = 1 2 π e − x 2 2 当u=0,\sigma=1,时,正态分布为标准正在分布。f(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} 当u=0,σ=1,时,正态分布为标准正在分布。f(x)=2π1e−2x2
标准正太分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转换为标准正态分布,
X − N ( u , σ 2 ) , 则 Z = X − u σ 符 合 N ( 0 , 1 ) 转 化 公 式 X-N(u,\sigma^2),则Z=\frac{X-u}{\sigma} 符合N(0,1)转化公式 X−N(u,σ2),则Z=σX−u符合N(0,1)转化公式
正态分布在质量管理中作用,全面质量管理中
3 σ , P ( u − 3 σ < x < u + 3 σ ) = Φ ( 3 ) − Φ ( − 3 ) = 0.9973 3\sigma ,P(u-3\sigma<x<u+3\sigma)=\Phi(3)-\Phi(-3)=0.9973 3σ,P(u−3σ<x<u+3σ)=Φ(3)−Φ(−3)=0.9973
根据小事件概率,落在该区间外的概率进位0.27%。在六西格玛管理质量标准意味着合格率需要达到99.9999998%,即不合格为十亿分之二。
3.指数分布
指数分布和泊松分布结合起来共同解决排队问题。怕松分布:过去1小时有5个客人结账,接下来1小时有8个人来结账的概率是多少;指数分布则是,过去20分钟有1个人来结账,接下来10分钟内有人来结账的概率是多少。
f ( x ) = { 0 , x < 0 1 u e − 1 u x = λ e − λ x , x ≥ 0 f(x)=\begin{cases} 0,x<0\\ \frac{1}{u}e^{-\frac{1}{u}x} =\lambda e^{-\lambda x}, x\geq0\end{cases} f(x)={0,x<0u1e−u1x=λe−λx,x≥0
x表示给定的时间长度,u表示随机事件发生一次的平均等待时间
λ 是 u 的 倒 数 , 可 以 解 释 为 单 位 时 间 内 随 机 事 件 发 生 的 次 数 。 \lambda是u的倒数,可以解释为单位时间内随机事件发生的次数。 λ是u的倒数,可以解释为单位时间内随机事件发生的次数。
学习记录笔记
print(123)
System.out.println("adu");