总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差

开博第一篇先回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念: 总体,个体,抽样,样本,样本容量,随机变量,期望,方差,离差,残差
1 总体
本小节所探讨的总体的概念,特指在统计学中的“总体”。统计学中的“总体”,或称统计总体(population),简称总体,指要调查或统计某一现象或事物全部数据的集合。
例如,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的年龄,那么所有中国人的年龄,就是我们研究和统计的总体;再例如,我们要统计国内互联网从业人员的年薪,那么这些国内互联网从业人员的年薪,就是我们研究的总体;再例如,淘宝公布的“女人胸越大越败家”的调查结论,我们要分析女人胸的大小与败家的相关性,那么所有在淘宝上有购买胸罩的女人的购买记录(包括购买的胸罩的大小,以及此购买人最近一年或半年的总消费额),就可以作为我们研究的总体。
 
总体有三个性质,以下作一个简单的说明,并以“女人胸越大越败家”做例子讲解。
(1) 大量性,是指需要研究的总体的数目巨大。例如研究“女人胸越大越败家”,就需要淘宝上所有购买胸罩的女人的交易记录。
(2) 同质性,是指总体中研究的每一个数据(也称个体)彼此之间有相同的性质,例如因为是淘宝公布的结论,所以研究数据都是取自淘宝,也即是在淘宝上的消费记录,而非京东;并且这些购买记录中都有消费胸罩这一项,不能拿购买裤子的记录与购买胸罩的数据分析。
(3) 变异性,是总体中研究的每一个数据之间,也是有差异的。例如每条购买记录是不同的人操作,都买了不完全相同的胸罩大小,有不同的消费额,特定的某一个数据(个体),其总消费金额也是有差异的等等。
 
2 个体
个体,指需要研究的总体中一个特定的主体。
以探讨总体时举的例子,我们要统计具有中华人民共和国国籍的中国公民(这里简称中国人)的平均年龄,那么总体中的一个主体,或者说一个数据,例如题主的年龄--26岁,就是在这个总体--所有中国人的年龄--中的一个样本;同理,某一个特定的互联网从业人员,如某个阿里数据分析师的工资,也是国内互联网从业人员的年薪中的一个特定的主体,也即个体;同理,每一个购买胸罩的消费记录(和前两个例子中的年龄和工资等一维数据构成一个个体不同,购买记录可能会包含多维数据,例如:胸罩大小,此购买人最近一年或半年的总消费额等,这些多维数据共同构成了一个研究的个体),就成为了我们研究女人胸的大小与败家的相关性中的一个个体。
3 抽样
举一个例子,要检验某食品的出厂合格率,理想的做法,是打开所有总体--食品--的包装,检测总体中每一个个体--也即具体的每一盒食品--是否合格,再计算出出厂合格率。但这显然是不现实的,因为打开所有包装并检查的成本过大。
这时我们需要从总体中抽选部分个体构成一个集合(也成为样本,样本中个体的数目小于总体数目),如果抽取的集合中的个体能较全面,无偏地反映出总体的信息,就可以认为该抽样是有效的。
抽样按照个体是否放回可以分为有放回抽样和无放回抽样,有放回抽样指从总体中抽取一个个体并记录该抽样结果后,再将该个体放回至总体中;无放回抽样指从总体中抽取一个个体并记录该抽样结果后,不再放回该个体。二者区别就在于,有放回抽样可能抽取重复的个体,而在无放回抽中不存在这种情况。
按具体的抽样方法分类,可以分为简单随机抽样,分层抽样,比例抽样,等距抽样,系统抽样等。
4 样本,样本容量
样本是总体的一部分,它是由从总体中按一定程序抽选出来的那部分总体单位--也即个体--所组成的集合。那么这个集合中,个体的数目称为样本容量。
例如统计国内互联网从业人员的年薪,我们经过抽样获得了淘宝,百度,腾讯等互联网公司从业人员的10000条薪资记录,那么这10000条薪资记录就构成了我们研究的一个样本,10000为该样本的样本容量。同理,分析女人胸的大小与败家的相关性,经过抽样获得的5000条消费记录,就构成了一个样本,5000为该样本的样本容量。
那么样本与抽样的关系,就可以理解为抽样是过程,抽得的样本是结果。最终得到的样本,也需要尽量能全面地反映出总体的特性,例如统计国内互联网从业人员的年薪,如果只统计了淘宝,百度,腾讯三家公司,肯定是不能代表整个互联网从业人员的年薪,因此可以认为该样本并不是能有效反映总体的抽样样本。
最后用一个例子作为今天讲解概念的总结:
要研究一所拥有10000名学生的大学中,学生的平均身高。我们从10000名学生中随机抽取了100名学生作为调查对象,那么:
1 总体:10000名学生的平均身高;
2 个体:某一个学生的身高,例如,学号为00001的学生的身高;
3 抽样:从10000名学生中随机抽取了100名学生作为调查对象(样本)的过程;
4 样本:抽取的100名学生的身高数据;
5 样本容量:100
 
5 随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。
一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。
离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。
连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。
 
6 期望
先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E,或 μ)是试验中每次某个可能结果的 概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。
离散型随机变量期望的公式化表示为如下,假设随机变量为 X,取值 x i( i=1,2,..., n),对应发生概率 p i( i=1,2,..., n), E( X)为随机变量的期望:

E(X)=∑ni=1pixi

p i( i=1,2,..., n)相等时,也即 p i=1 n时, E( X)可以简化为:
E( X)=1 nn i=1 x i
连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设 X为连续性随机变量, f( x)为对应的概率密度函数,则期望 E( X)为:
E( X)=∫ x f( x) d x
7 方差
在概率论和数理统计中,方差(Variance,符号D,或 σ2)用来度量 随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。同时,变量的期望相同,但方差不一定相同。
依旧以离散型随机变量为例,假设随机变量为 X,取值 x i( i=1,2,..., n), μ为随机变量的数学期望(均值),那么离散型随机变量 X的方差可以表示为:
D( X)=1 nn i=1( x iμ)2
在计算上,如果已知随机变量 X的期望 E( X),则方差的计算可以简化为:
D( X)= E( XE( X))2= E( x2)−[ E( x)]2 
8 离差
离差也叫差量(符号 η),是 单项数值与平均值之间的差。一般计算离差平方和来表示数据分布的集中程度,此时的离差平方和与方差的关系为:
η i= x iμ
η2=∑ n i=1 η2 i= n D( X)
9 残差
残差是指观测值与预测值(拟合值)之间的差, 即是实际观察值与回归估计值的差。把每个残差的平方后加起来称为残差平方和,它表示随机误差的效应。
例如,在线性回归中,每一点 y i的估计值 yi和实际值 y i的差的平方之和称为残差平方和。

S=∑ni=1(yiyi)2



转自:http://www.cnblogs.com/jackhumeng/p/4371500.html
          http://www.cnblogs.com/jackhumeng/p/4379027.html
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值