一、统计学学基本概念
01)均值:我们假定有n个数,他们之和为sum,那么均值为
m
e
a
n
=
s
u
m
n
mean=\frac{sum}{n}
mean=nsum
02)中位数:体现的是可以把样本分为上下两部分的一个值,按照大小关系排列好之后,如果n为奇数那么中位数为第
n
+
1
2
\frac{n+1}{2}
2n+1个数值;如果n为偶数那么中位数为
第
n
2
个
和
第
n
2
+
1
个
第\frac{n}{2}个和第\frac{n}{2}+1个
第2n个和第2n+1个数值的平均数。
03)众数:在统计分布上具有明显集中趋势的点的数值。
04)极差:全距(Range),又称极差,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。
05)中程数:极差是在最大最小值基础上相减得到,而中程数是二者的平均值。
06):常用的统计图有象形统计图、条形图、线形图、饼图、茎叶图、箱线图
不同的图表有不同的侧重点,一般根据具体场景来选择具体图表。
07)样本和总体:研究中实际观测或调查的一部分个体称为样本(sample),研究对象的全部称为总体。为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则。
08)总体方差:是一组资料中各数值与其算术平均数之差的平方和的平均数。
09)样本方差:样本方差是指构成样本的随机变量对离散中心 x之离差的平方和除以n-1,样本方差用来表示一列数的变异程度。
10)标准差:标准差定义为方差的算术平方根,反映组内个体间的离散程度。
11)随机变量(random variable):表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
12)概率密度函数:对于一维实随机变量X,设它的累积分布函数是
F
X
(
x
)
F_X(x)
FX(x)。如果存在可测函数
f
X
(
x
)
f_X(x)
fX(x)满足: X是一个连续型随机变量,并且fX(x)是它的概率。
二、二项及泊松分布
01)二项分布
二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是
p
(
ξ
)
=
C
(
n
,
k
)
p
k
∗
(
1
−
p
)
n
−
k
p_{(\xi)}=C_{(n,k)}p^k*(1-p)^{n-k}
p(ξ)=C(n,k)pk∗(1−p)n−k记作ξ~B(n,p)期望:Eξ=np 方差:Dξ=npq
02)泊松分布
泊松分布是一种统计与概率学里常见到的离散概率分布,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。概率论中常用的一种离散型概率分布。若随机变量 X 只取非负整数值,取k值的概率为
P
(
X
=
k
)
=
e
−
λ
λ
k
k
!
P(X=k)=\frac{e^{-\lambda }\lambda^{k}}{k!}
P(X=k)=k!e−λλk则随机变量X 的分布称为泊松分布,记作P(λ)。这个分布是S.-D.泊松研究二项分布的渐近公式时提出来的。泊松分布P (λ)中只有一个参数λ ,它既是泊松分布的均值,也是泊松分布的方差。
三、大数定律和正态分布
01)大数定律
在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。 大数定律分为弱大数定律和强大数定律。
单地说,大数定理就是“当试验次数足够多时,事件发生的频率无穷接近于该事件发生的概率”
02)正态分布
正态分布(Normal distribution)是一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ^2 )。遵从正态分布的随机变量的概率规律为取 μ邻近的值的概率大 ,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低 ,图像是一条位于x 轴上方的钟形曲线。当μ=0,σ^2 =1时,称为标准正态分布,记为N(0,1)。
3)中心极限定理
设随机变量序列X1,X2,…Xn,…相互独立,均具有相同的数学期望与方差,且E(Xi)= Ui,D(Xi)=Ri^2>0,i=1,2,…,令:
Yn=X1+X2+…+Xn
Zn=〔Yn-E(Yn)〕/√D(Yn)=∑(Xi-Ui)/√∑Ri^2 (i=1,2…、n)
则称随机变量Zn为随机变量序列X1,X2,…Xn的规范和。
中心极限定理:设从均值为μ、方差为
σ
2
σ^2
σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。