关闭

基本概念

415人阅读 评论(0) 收藏 举报
分类:

随机变量:

统计中用随机变量X的取值范围和其取值概率的序列来描述这个随机变量,称之为随机变量X的概率分布。


样本:

样本是总体的一个子集,它的大小称为样本容量。一次采样就是从总体中提取容量为n的样本随机过程,注意这是一个样本。


总体分布:

总体中随机变量X的取值范围及概率


样本分布Sample distribution

样本中随机变量X的取值范围及概率。它不同于下面要介绍的抽样分布,抽样分布是X的统计量在不同的抽样中的分布。例如总体为全校男生的身高X,总体分布指全校男生身高的范围和取各个值的概率(概率密度),样本分布是指一次抽样比如100个男生中,身高的范围和取各个值的概率,抽样分布一定要先确定统计量,比如平均身高,平均身高的抽样分布就是抽取100个男生的不同的抽样组合,每一个抽样都会得到一个平均身高,所有样本的平均身高的范围和取各个值的概率就是平均身高的抽样分布。


描述统计和推断统计:

描述统计用于对已观察到的数据的精确描述,获取样本数据统计量,例如均值、标准差、范围等

推断统计用已经观察到的样本来描述和推理总体的相关情况,例如推测总体的均值、标准差等


抽样分布Sampling Distribution

对一个总体进行m次抽样,每次抽样的样本容量为n,对每个样本可以计算该样本的统计量,如均值、方差、容量等,m个样本的某一个统计量的值的分布都是抽样分布,比如m个样本的均值的分布。注意不要把样本数量m和样本容量n搞混了。

抽样分布也称统计量分布、随机变量函数分布。以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算出一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。因为不同的抽样,会得到不同的样本均值,因此样本均值是一个随机变量。

当样本容量为n时,样本均值的期望值等于总体均值,样本均值的方差等于总体方差除以n。(忽略重复抽样和不重复抽样的差异)

如果原有总体上正态分布,那么,无论样本容量大小,样本均值的抽样分布都服从正态分布。

如果原有总体非正态分布,就要看样本容量大小。随着样本容量增大(通常要求大于等于30),不论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布(中心极限定理)。


样本比例:

指样本中具有某种特征的元素所占的比例,也是一个随机变量。在大样本情况下,

样本比例p的数学期望等于总体比例P

样本比例的方差等于P(1-P)/n


二项分布:

是一个离散分布。在n次实验中,每次实验只能取两个结果中的一个,有x次成功,成功的概率为p,二项分布就是x取各种值0-n的概率。当n很大,即np>5 并且 n(1-p)>5时,x近似服从均值μ=np, 方差=npq的正态分布


参数:

用于对总体的描述,推断统计就是推测出这些参数,例如总体的均值就是一个参数。注意样本是没有参数的,样本的均值是一个已知观察值


参数估计:

又分为点估计和置信区间估计,点估计确定总体参数最可能的值,区间估计确定总体参数在一个区间内的概率


中心极限定理:

就是当样本容量n足够大时,样本的均值近似正态分布。注意这里也是抽样分布。该定理表明,当样本容量n较大时,不管总体分布如何,样本均值近似服从正态分布。样本容量的多少取决于总体分布的形状,如果总体分布是对称的,则样本容量为5就可以了,否则,需要样本容量50以上。


自由度:

是指数据提供的信息量,你可以“消耗”这些信息来评估未知总体参数的值和变化(如方差)。自由度由样本的容量和总体模型的参数个数决定。增加样本容量会增加自由度,增加模型的参数(例如增加回归模型中的项的个数)会消耗数据的自由度,从而减少用于评估总体参数的自由度。如果模型的参数个数大于数据的自由度,会使对模型参数的估计不可靠。例如,使用1-sample t-test 估计总体的均值,因为只有一个参数,而样本容量为n,对参数的估计消耗一个自由度,剩下的n-1个自由度用于估计参数的变化。因此1-sample t-test 使用n-1个自由度的t分布。

另外,自由度也可以用于刻画t分布、F分布、chi-square分布的形状。


error:

反映了函数、公式、统计不能完全解释或对理论值/真值建模的程度,也就是真值和估计值的差

1类错误:拒真

2类错误:接受假


方差Variance:σ² or Var(X) 和标准差Standard deviation:σ,

反映组内个体间的离散程度。如下公式用于计算一组确定的观测值的标准差

标准离差率Coefficient of Variance:

又称为变化系数或标准差系数,计算公式如下

标准离差率是一个相对指标,反映决策方案的风险程度。方差和标准差作为绝对数,只适用于期望值相同的决策方案风险程度的比较。对于期望值不同的决策方案,评价和比较其各自的风险程度只能借助于标准离差率这一相对数值。在期望值不同的情况下,标准离差率越大,风险越大;反之,标准离差率越小,风险越小。


样本标准差:

在真实世界中,找到一个总体的真实的标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的



标准误(standard error)

即样本统计量的标准差(standard deviation),是描述对应的样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度。注意:标准误是样本统计量(针对一个样本算出来的统计量)的标准差,而不是样本的标准差。样本均值是总体均值的无偏估计,但是,来自同一总体的不同样本可能有不同的均值,假设可以从总体中随机选取数量无限的容量相同的样本,每个样本可以有一个样本均值,可以将无限多个样本均值组成一个总体,该总体的标准差即为样本均值的标准误差。


样本均值的标准误standard error of the mean, SEM) 符号表示:

the standard deviation of the sample distribution is called the standard error of mean


如果已知母体标准差(σ),那么抽取无限多份大小为 n (n为样本容量)的样本,每个样本各有一个平均值,所有这个大小的样本之平均值的标准差可证明为(注意!不是一份样本里观察值的标准差(那是下面公式里的{\displaystyle s})):


但由于通常σ为未知,此时可以用研究中取得的一份样本的标准差 (S) 来估计



Sampling Distribution
1
0
查看评论

Kafka基本概念

是一个分布式、可分区、可复制的消息系统,主要用于处理活跃的流式数据。 工作原理 Kafka的设计初衷是希望作为一个统一的信息收集平台,能够实时的收集反馈信息,并需要能够支撑较大的数据量,且具备良好的容错能力 Kafka中的zookeeper的用途 正如zookeeper用于分...
  • wang_ying_198
  • wang_ying_198
  • 2016-04-13 15:39
  • 935

跟我一起学openGL-基本概念

参考 https://learnopengl.com/
  • xiadidi
  • xiadidi
  • 2017-03-31 20:14
  • 504

【video】视音频基本概念

1.2.1. 像素 一幅平面图像,根据人眼对细节分辨力有限 的视觉持性,总可以看成是由许许多多的小单 元组成。在图像处理系统中,这些组成画面的 细小单元称为像素。像素越小,单位面积上的 像素数目就越多,由其构成的图像就越清晰。 1.2.2. 帧 电视系统中把构成一幅图像的各像素传送一遍...
  • datamining2005
  • datamining2005
  • 2017-02-14 16:30
  • 124

博弈论基本概念

博弈论(维基百科) http://zh.wikipedia.org/wiki/%E5%8D%9A%E5%BC%88%E8%AE%BA  具有竞争或对抗性质的行为称为博弈行为。在这类行为中,参加斗争或竞争的各方各自具有不同的目标或利
  • u012176591
  • u012176591
  • 2015-01-25 09:59
  • 989

域名系统DNS(一)基本概念

DNS基本概念 1. hosts文件 作用: 实现名字解析,主要为本地主机名、集群节点提供快速解析 数据库: 平面式结构,集中式数据库 2. 域名服务DNS 作用: 实现名字解析(例如将主机名解析为IP) 正向解析:根据主机名称(域名)查找对应的IP地址 反向解析:根据IP地址查找...
  • sinat_40356718
  • sinat_40356718
  • 2017-12-24 23:18
  • 68

Flash基本概念和原理

From: http://www.flashkj.com/wap.asp?act=View&id=66 一、时间轴线(Timeline) 时间轴线是动画和视频类软件中的一个重要概念。它相当于电影导演使用的摄影表。在实际电影拍摄中,导演通过摄影表来记录和控制整个影片的流程,包括...
  • JoeBlackzqq
  • JoeBlackzqq
  • 2013-02-26 22:59
  • 1147

HDFS的基本概念(一)

数据存入HDFS中时需要对其进行分片(split)、压缩等操作。HDFS使用Block(存储块)对文件的存储进行操作,Block是HDFS的基本存储单元,默认大小是64MB(Block较大的优点:可以减少用户与节点之间的通信需求;Namenode利用率高)。每个Block的默认副本数为3。HDFS数...
  • GnahzNib
  • GnahzNib
  • 2015-09-23 08:35
  • 563

DHCP基本概念 -- 路由

DHCP是Dynamic Host Configuration Protocol的缩写,它是TCP/IP协议簇中的一种,主要是用来给网络客户机分配动态的IP地址。这些被分配的IP地址都是DHCP服务器预先保留的一个由多个地址组成的地址集,并且它们一般是一段连续的地址。  理解DHCP...
  • ccy365263452
  • ccy365263452
  • 2014-10-11 15:25
  • 832

操作系统的基本概念

操作系统的基本概念1.      操作系统的内核是由中断驱动的由于操作系统内核的重要性,为防止用户程序错误调用内核模块而是系统崩溃,所以对操作系统的内核加以特殊保护。解决这个问题的一个方法就是,在实现方法上把内核模块的调用与应用程序的一般过程调用区别...
  • lemon_fantasy
  • lemon_fantasy
  • 2008-07-02 10:43
  • 4211

C++基本概念和常识

C++基本数据类型: 整形,字符型,实型,逻辑型(布尔型)   数据类型修饰符: short  long  unsigned    signed 注意: 1. 布尔型: 布尔型(bool):  C中没有布尔型,c++中增添了布尔型&#...
  • ztli_xd
  • ztli_xd
  • 2016-05-23 16:43
  • 437
    个人资料
    • 访问:3763次
    • 积分:79
    • 等级:
    • 排名:千里之外
    • 原创:4篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档