一些链接:
Excel在概率统计 二项分布 泊松分布 指数分布 样本均值中的应用
来自:Office之家
链接:http://www.icanzc.com/excel/6638.html
一、数据与统计资料
1.2.1数量型数据可以离散的,也可以是连续的
离散:度量可数事务的多少
连续:度量不可数事物的多少
1.2.2 测量尺度
1.3.2 观测性研究
研究人员无法控制变量情况
1.3.3 实验
在控制条件下进行,选择感兴趣的特殊变量,然后控制一个或多个其他变量
1.4 描述统计
以图形、表格、数值形式汇总的统计方法
1.6 逻辑分析方法
描述性分析
预测性分析
规范性分析
二、描述统计学Ⅰ:表格法和图形法
2.1 汇总分类变量
2.1.1 频数分布
表示在几个互不重叠的组别中,每一组项目的个数(即频数)
2.1.2 相对频数和百分比频数
组的相对频数 = 组的频数/n
组的百分比频数 = 组的相对频数 * 100
2.2 汇总数量变量
2.2.1 频数分布
1 – 确定互不重叠组的组数
建议5~20个组,组数随着数据项增加或减少
2 – 确定每组的宽度
近似组宽 = (数据最大值 – 数据最小值)/ 组数
3 – 确定组限
上组限和下组限,比如:1014,1519,20~24…….
这时,组宽 = 相邻组下组限之差
15-10=5,组宽就是5
组中值:是下组限和上组限的中间值,比如12, 17, 22……
2.2.4 直方图
直方图是各纵条之间没有间隔的条形图
左偏:尾巴偏左,从左往右呈放大趋势
三、描述统计学Ⅱ:数值方法
位置度量:
平均数、中位数、众数
百分位数,四分位数
百分位数的位置 = (p / 100) * (n + 1)
变异程度的度量:
四分位数间距= Q3 - Q1
方差 - 标准差 - 标准差系数
相对位置的度量:
z-分数:Xi与平均数的距离是Zi个标准差
切比雪夫定理:与平均数的距离在z个标准差之内的数据值,所占的比列至少为(1 – 1/z²)
z是>1的任意实数(可以是小数)
异常值检测:
四分位数确定法:
下限 = Q1 – 1.5 * IQR
上限 = Q3 + 1.5 * IQR
汇总统计
五数概括法:
1 - 最小值
2 - 第一四分位数(Q1)
3 - 中位数(Q2)
4 - 第三四分位数(Q3)
5 - 最大值
箱型图
两变量间关系的度量
样本协方差
s_xy = Σ(x_i - X_)*(y_i - Y_) / (n -1)
X_ 表示X的平均数
协方差是一个大的正值,就表示一个强的正线性关系;
协方差是一个大的负值,就表示一个强的负线性关系。
线性:
如果可以用一个二元一次方程来表达两个变量之间关系的话,这两个变量之间的关系称为线性关系,因而,二元一次方程也称为线性方程
相关系数:度量两个变量间 线性相关关系 的强弱
对于样本数据,皮尔逊积矩相关系数(值在-1~+1之间):
r_xy = s_xy / (s_x*s_y)
即:用样本协方差除以 x的标准差与y的标准差的乘积
当相关系数接近于-1 or +1时,表示强的线性关系,而相关系数越接近于0时,线性关系也越弱
四、概率
计数法则
1 - 多步骤实验
如果一个实验可以看作循序的k个步骤,在第一步中有n1种实验结果,第二步中有n2种实验结果,以此类推。那么实验结果的总数为n1n2…*nk
2- 组合计数 无放回情况
以元素不同作为判断
从N项中选取n项的实验中:
CnN = N! / n!(N - n)!
3 - 排序计数 有放回情况
以顺序不同作为判断
从N项中选取n项的实验中:
PnN = N! / (N - n)!
概率分配
概率分配的基本条件:
以Ei表示第i种实验结果,P(Ei)表示这种实验结果发生的概率
1 - 每个实验结果的概率值必须在0和1之间:
0 <= P(Ei) <= 1
2 - 所有实验结果概率之和必须等于1:
P(E1) + P(E2) + … + P(En) = 1
古典法
条件:各种实验结果时等概率发生的
例如:抛硬币,向上向下的概率都是1/2
相对频率法
条件:适用于大量重复进行的实验,并且能取得发生频率的数据
主观法
条件:当不能假定实验结果时等可能发生的或者无法取得相关数据时
条件概率
P(A | B) : 在B发生的条件下,考虑A发生的概率
P(A | B) = P(A ∩ B) / P(B)
独立事件
两个事件A, B是相互独立的,如果:
P(A | B) = P(A) or P(B | A) = P(B)
否则,两个事件是相依事件
乘法公式
P(A ∩ B) = P(B) P(A | B) or P(A ∩ B) = P(A) P(B | A)
独立事件与互斥事件的区别:
独立事件:B事件的发生与否,不影响A事件发生的概率
互斥事件:A与B不可能同时发生,A与B没有交集
贝叶斯定理
P(Ai | B)
= P(Ai ∩ B) / P(B)
# ↑ P(Ai ∩ B) = P(Ai) P(B | Ai); P(B) = P(A1 ∩ B) + P(A2 ∩ B) + … + P(An ∩ B)
= P(Ai) P(B | Ai) / ( P(A1) P(B | A1) + P(A1) P(B | A1) + … + P(An) P(B | An) )
适用情况:
当我们希望计算后验概率的那些事件是互斥的。且它们的并构成了整个样本空间
五、离散型概率分布
离散型随机变量 与 连续型随机变量
Tips: 把所有随机变量的值看作一条线上的点,任意选择随机变量的两个值:
1 - 假如这两点间的所有点都有可能是随机变量的取值,则该随机变量就是连续的
2 - 假如这两点间不存在可以无限取值的情况,则该随机变量就是离散的
例子:
1 - 离散变量:一天中到达汽车站的人数,可以是{0 ,1 ,2 ,…}中任意数字
2 - 连续变量:工人完成某项任务的时间x, x > 0的任意时间
5.3.1 离散型随机变量的 数学期望
也叫均值,是对随机变量中心位置的一种度量
E(x) = Σxf(x)
5.3.2 离散型随机变量的 方差
Var(x) = Σ(x - E(x))^2f(x)
5.4.1 二元经验离散概率分布
随机变量x与y的协方差
= [Var(x + y) - Var(x) - Var(y)] / 2
随机变量x和y的线性组合的数学期望
E(ax + by) = aE(x) + bE(y)
两个随机变量的线性组合的方差
Var(ax + by) = a²Var(x) + b²Var(y) + 2ab*x与y的协方差
5.5 二项概率分布
5.5.1 二项试验
二项试验的性质:
1 - 试验由一系列相同的n个试验组成;
2 - 每次试验有两种可能的结果,把其中一种叫做成功,另一种叫做失败;
3 - 每次试验成功的概率都是相同的,用p表示;失败的概率也是相同的,用1-p表示
4 - 试验是相互独立的
5.6 泊松概率分布
性质:
1 - 在任意两个相等长度的区间上,事件发生的概率相等
2 - 事件在某一区间上是否发生与事件在其他区间上是否发生是独立的
泊松分布的数学期望=方差
5.7 超几何概率分布
性质:
1 - 各次试验中成功的概率不等
2 - 各次试验不独立
六、连续型概率分布
6.1 均匀概率分布
只要概率与区间长度成比例,随机变量就是均匀分布
6.2 正态概率分布
EXCEL公式: NORM.DIST(x, mean, standard_dev, cumulative)
X 必需。 需要计算其分布的数值。
Mean 必需。 分布的算术平均值。
standard_dev 必需。 分布的标准偏差。
cumulative 必需。 决定函数形式的逻辑值。 如果 cumulative 为 TRUE,则 NORM.DIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
6.4 指数概率分布
EXCEL公式: EXPON.DIST(x, lambda, cumulative)
X 必需。 函数值。
Lambda 必需。 参数值,即1/u。
Cumulative 必需。 逻辑值,用于指定指数函数的形式。 如果 cumulative 为 TRUE,则 EXPON.DIST 返回累积分布函数;如果为 FALSE,则返回概率密度函数。
七、抽样和抽样分布
7.2.1 从有限总体的抽样
简单随机样本:
从容量为N的有限总体中抽取一个容量为n的样本,如果容量为n的每一个可能的样本都以相等的概率被抽出,则称该样本为简单随机样本
7.2.2 从无限总体的抽样
随机样本:
如果从一个无限总体中抽取一个容量为n的样本,使得下面的条件得到满足:
1 - 抽取的每个个体来自同一总体;
2 - 每个个体的抽取是独立的。
则称该样本是一个随机样本
八、区间估计
区间估计 = 点估计 ± 边际误差
任何正态分布随机变量都有95%的值在均值附近±1.96个标准差以内