刚办完新浪数据挖掘实习岗位的离职,深感自己的水平差了好多,想多花点时间补一下基础。所以,就从头来过,花两个月的时间从统计开始一点一点过一遍知识。首先是概率统计的基本知识(太简单就不做记录了),写成第一篇博文以做备忘。
-----------------------------------------------------------------------------------------
乘法公式 P(AB)=P(A|B)P(B)=P(B|A)P(A)
乘法公式的推广 P(A1 A2 A3 ... An)=P(A1)P(A2|A1)P(A3|A1 A2)...P(An|A1 A2... An-1)
全概率公式
Bayes公式 Bi常被视为导致试验结果A发生的原因,P(Bi)表示各种原因发生的可能性大小,故称为先验概率;P(Bi|A)反映了当产生了结果A之后再对各种原因概率的新认识,故称为后验概率。
随机变量的分布函数 设X是一个随机变量,对任意的实数x,令F(x)=P{X<=x} 则称F(x)为随机变量X的分布函数也称为概率累计函数。
常见的离散型分布
(1)两点分布(0-1分布)
设离散型随机变量的分布律为
,其中k=0,1.p为k=1时的概率(0<p<1),则称X服从
(0-1)分布
,
X的分布列如下:
X | 0 | 1 |
P | 1-p | p |
记法:X~B(1,p) 期望:E(X)=p 方差:D(X)=p(1-p)
(2)二项分布
重复n次的伯努利实验(Bernoulli Experiment),用ξ表示随机试验的结果。如果事件发生的概率是p,则不发生的概率q=1-p,N次独立重复实验中发生K次的概率是
P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k), 其中C(n, k) = n!/(k! * (n-k)!) 注意!:第二个等号后面的括号里的是上标,表示的是方幂。
那么就说这个属于二项分布。
其中P称为成功概率。
记作:ξ~B(n,p) 期望:Eξ=np
方差:Dξ=npq
其中q=1-p
(3)泊松分布
泊松分布的概率函数为:
泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。
期望:
方差:
特征函数:
泊松分布与二项分布
当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。
常见的连续性分布
(1)均匀分布
设连续型随机变量X的概率密度函数为
f(x)=1/(b-a),a≤x≤b
则称随机变量X服从[a,b]上的均匀分布,记为X~U[a,b]。
若[x1,x2]是[a,b]的任一子区间,则
P{x1≤x≤x2}=(x2-x1)/(b-a)
这表明X落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此X落在[a,b]的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。
期望:E(X)=(a+b)/2 方差:D(X)=(b-a)^2/12
(2)指数分布
概率密度函数
其中λ > 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数。指数分布的区间是[0,∞)。 如果一个
随机变量
X呈指数分布,则可以写作:
X~ Exp(λ)。
指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数
分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
累积分布函数