1. 基本概念
数据间类型的转换
- 连续变量、有序变量、无序变量间的信息量越来越少,在丢弃一部分信息量的前提下,可以将变量向信息量减少的方向加以转换
- 连续数据与有序分类数据
- 年龄、客户贡献度→人为划分成若干级别
- 有序分类数据与两分类数据
- 售后满意度→按照某个级别一分为二
统计量、总体参数与抽样误差
- 刻画样本特征的统计指标称为统计量(statistic),如平均水平,离散水平
- 刻画总体特征的指标称为总体参数(parameter),例如总体中某个指标的所有个体变量值的平均数称为总体均数
- 统计研究中真正希望加以研究考察的都是总体参数,但参数—般是无法直接求得的,只能从统计量的大小加以推估
概率、频率与小概率事件
- 随机事件:随机现象某个可能的观察结果称为一个随机事件
- 频率(frequency):观察到的随机事件某个结局的出现频次/比例,可以被直接观察到
- 概率(probability):概率刻画随机事件发生可能性大小,其取值界于0和1之间
- 不能被直接观察到,但可以通过频率估计,实验次数越多,估计越精确
- 在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,如果事情发生了,说明我们的假设有问题,这就是小概率原理。小概率原理是统计推断的基础
- 经典的小概率事件:瞎猫碰上死耗子
2. 统计研究的步骤
设计 收集 整理 分析
设计:
选题→明确研究目的→提出假设→明确总体范围→确立观察指标→控制研究中的偏倚→给出具体的研究方案
收集: 趋向两极化
整理: 越来越倾向于半自动化,有许多软件工具可用,但这并不意味着该过程并不重要
分析:
-
统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确、直观而全面的对所获得的样本进行呈现
- 为了达到这一目的,需要使用一系列专门的统计描述指标
- 这些指标的呈现方式又可分为两种
- 统计图:直观,但精确度稍差
- 统计报表:能尽量详细,精确,但不够直观
-
统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答
- 参数估计:样本→所在总体特征
- 例:该配件的日平均用量是多少?
- 假设检验:该指标可能的影响因素分析
- 例:和晴天相比,雨天的配件用量是否更低
- 参数估计:样本→所在总体特征
3. 描述统计
3.1 原始数据的基本分布特征
频数表Frequency Table
- 是一种非常直观的方法,但是比较粗糙
- 确定组数:组数不宜过多,但也不能太少,保证大多数组都有数个观察值
- 确定组距:在确定了全距后,—般进行等距分组
- 组距~=极差/组数
- 确定各组段的上下限
- 各组的起点被称为该组的下限,终点被称为上限
显然,各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍
从频数表可获得的信息
- 集中趋势
- 高峰组段在什么位置出现
- 离散趋势
- 数据的分布范围是什么,分散程度如何
- 分布形状
- 是否对称,分布曲线的形状
- 正、负偏态和左、右偏
- 分布特征
- 一个峰还是两个峰,有没有极端值
只是有个大致影响,数据很少事就不需要。
3.2 集中趋势的描述指标
均值 Mean
-
描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示 μ \mu μ 和 X ˉ \bar{X} Xˉ
-
注意:均数在书写上应当带有和原始测量值相同的测量单位
-
均数的实质:把总体各单位的差异全部抽象化,采用取长补短的方法把变量值小于平均数的负离差全部用大于平均数的正离差抵消补齐
-
优点:
- 高度浓缩了数据的精华,使大量的观测数据转变为一个代表性数值。数据资料中任何频次、次序和数值大小的变化,都会引起平均数的改变。因此它是灵敏的,也是对资料所提供信息运用得最为充分的
- 大家都明白,都爱用,结果便于比较,传播
-
缺点
- 大锅饭:把各个观测数据之间的差异性掩盖了起来,这不一定合适
- 欺骗性:由于平均数对个别极端值反应比较灵敏,因而均数在某些情况下可能具有一定的欺骗性,这时它的结果就有可能走样。(异常值),分层计算。
-
适用范围:对称分布资料,特别是正态分布资料
中位数Median
- 是将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值。它把全部数值分成两部分,比它小和比它大的数值个数正好相等。
- 中位数作为分布数列中处于中等水平的代表值,能够将全部总体单位按数值的大小等分为两个部分。所以中位数又称为二分位数。
- 表示符号:M
- 优点:
- 它是位置平均数,不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均数更具有代表性。例如员工收入的例子,其中位数就是410元,显然要比均数更能够代表数据的集中趋势
- 缺点:
- 不是所有人都能理解
- 损失信息:由于中位数只考虑居中位置,其它变量值比中位数大多少或小多少,它是无法反映出来的。所以,用中位数来描述连续变量会损失很多信息。
- 不稳定:当样本量较小时,中位数会不太稳定,并不是一个好的选择。
因此,对于对称分布的资料,分析者往往优先考虑使用均数,仅仅是对均数不能使用的情况才是用中位数加以描述。
几何均值 Geometric Mean
- 在医学、化学研究中经常会遇到—种特殊的资料,其数值呈等比方式记录,本身为正偏态分布,但是如果进行对数变换,则变换后的数据呈正态分布
- 为了能够充分利用数据信息,可以考虑先进行对数变换,然后求得此时的算术均数,最后将该均数反对数变换回来,这就是所谓的几何均数
- 表示符号:G
众数:出现次数最多的数据
截位均数:首位截掉一定比例的数据
函数方式:
- Average()
- Median()
- Geomean
- Mode()
- Trimmean()

3.3 离散趋势的描述指标
全距Range
- 优点:
- 容易理解
- 适用范围最广
- 缺点:
- 不稳定
方差 deviation
- 描述数据的离散程度

- 标准差:解决了量纲问题
- 样本标准差:

变异系数 Coefficient of variation
- C V = S / X ˉ CV = S / \bar{X} CV=S/Xˉ 方差除以样本均值
- 解决了不同资料间变异程度对比的问题
百分位数
- 是一种位置指标,用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大
- 适用于各种分布
- 只有样本量较大时结果才比较稳定,对位于两端的百分位数而言更是如此。100例时,P95右侧才5例。
四分位数
- 即P25、P50和P75分位数的总称
- 正好将样本值四等分,且P25和P75中间包括了中间50%的观察值,因此四分位间距既排除了两侧极端值的影响,又能够反映较多数据的离散程度
函数方式
- var.p() p代表样本,s代表总体
- stdev.p()
- PERCENTILE.INC()
- QUARTILE.INC()
3.4 分类变量的常用描述指标
基本的描述方式
原始数据:
频数列表 百分比 累计频数 累计百分比 众数 比率 相对数


4 正态分布
普通正态分布
正态分布的两个重要特征:均数 μ \mu μ和标准差 δ \delta δ
- 记为 X 一 N ( μ , δ 2 ) X一N(\mu,\delta^2) X一N(μ,δ2)
- μ \mu μ是分布曲线的峰位置(集中趋势),又被称为位置参数
- δ \delta δ大离散程度大、 δ \delta δ小离散程度小(离散趋势),又被称为形状参数
- 正态分布的对称性
标准正态分布
不同的正态分布N(u,o2),其曲线下方的面积分布规律各不相同,使得在应用上很不方便
- 需要为每种分布单独计算曲线下面积分布规律
- 为此统计学家优先计算出了均数为0,标准差为1的正态分布 N ( 0 , 1 ) N(0,1) N(0,1)曲线下面积分布规律
| 95% | 99% | |
|---|---|---|
| 双侧 | 1.96 | 2.53 |
| 单侧 | 1.64 | 2.33 |
95% 双侧个体参考范围: ( X ˉ − 1.96 δ , X ˉ + 1.96 δ ) (\bar{X} - 1.96\delta,\bar{X} +1.96\delta) (Xˉ−1.96δ,Xˉ+1.96δ)
具体应用:血细胞正常范围
5 二项分布
- 从三扇门里面选择一扇门,其中一扇门后面是汽车,另两个后面是山羊。现在你已经选好了一扇门,主持人打开另两扇中的一个,看到是一只山羊,然后主持人问:想改变选择吗﹖请问:改变选择是否对你有利(更可能赢得汽车)?
- 是的,你应当改变选择,因为当初选择时只有1/3的机会赢得汽车,而改变的话(由于已经去掉了—扇门),会有2/3的机会获胜。
- 结果是错的,如何反驳
Bernoulli试验序列
- 在重复实验中,如果对每一次实验,出现的结果只有两种情况,即Bernoulli试验。
- 每次试验的条件不变。即每次试验中,结果A发生的概率不变(假设均为pi) 。
- 各次试验独立。即一次试验出现什么样的结果与前面己出现的结果无关。
- 由满足以上三个条件的n次Bernoulli试验构成的序列被称为是Bernoulli试验序列
- 公式: P ( X = k ) = C n k p k ( 1 − p ) n − k P(X=k) = C^k_n p^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
若X服从二项分布,则记 X 一 B ( n , p ) X一B(n,p) X一B(n,p)
均值 μ = n p \mu=np μ=np,方差 δ = n p ( 1 − p ) \delta=np(1-p) δ=np(1−p) - 基本特征:
- 当pi=0.5时,图形对称;当pi≠0.5时,图形呈偏态,但随n的增大,图形逐渐对称。
- 因此,当n较大,pi不太极端时,可以采用正态近似方法计算概率分布规律(例如计算参考值范围)
- 具体应用
博彩行业的规则规定
6 统计推断
统计推断
-
统计推断,或者说统计估计,就是根据你拥有的信息来对现实世界进行某种判断。
-
生活中的推断
- 可以根据一个人的衣着、言谈和举止判断其身份
- 可以根据一个人的脸色,猜出其心情和身体状况
-
统计中的推断也不例外,只不过它是完全依据数据做出的
- 从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)
-
重要提示:任何一个总体参数都可以进行统计推断!
- 例:配件日消耗量的均数、中位数、标准差、四分位数间距、变异系数等等,都是可以进行统计推断的
- 只是由于传统统计学发展的先后,以及各指标用途的重要性不同,导致了针对算术平均数的推断最为大家所熟悉
6.1 抽样误差与标准误差
-
应用场景
基于配件A的领用历史数据,我们能否估计出其总体日平均领用量的大致范围?- 样本均数显然可以作为总体均数的最佳估计值
- 真实的总体均数显然应当离样本均数不远,但究竟会在多大的区间范围内呢?
- 也就是说,这个点估计究竟有多准确呢
-
抽样误差与标准误
-
抽样误差:由抽样导致的样本均数与相应总体均数在数值上的差异
- 但是如何定量表达其大小?
- 样本均数与真实总体均数之差看上去是可以表示抽样误差大小的,但实际上无法计算
-
考虑在一个总体中实际上可进行无限多次抽样,实际上这些样本的抽样误差应当也服从某种分布规律
-
从统计总体的角度来看,其实就是要回答对于一个相同的总体,如果我们从中进行抽样研究的话,则相应的样本统计量(例如均数)的离散程度是怎样的。
-
样本均数存在随机变异,但在大量重复观察的情况下,可以证明同样有一定的规律,即:样本均数的概率分布。
- 特点:样本均数的总体均数与样本资料的总体均数相同,但标准差减小。
-
样本均数服从 N ( μ , δ 2 ) N(\mu,\delta^2) N(μ,δ2),样本均数的抽样误差是随机的,因此也有相应的规律(概率密度曲线<
最低0.47元/天 解锁文章
878

被折叠的 条评论
为什么被折叠?



