统计学的知识

Day1

  Never Say Goodbye.
  Ray
1.1-1.2

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所用的方法可分为描述统计方法和推断统计方法,描述统计(descpritive statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计方法。数据分析分析的不是每天的数据,而是一种变化的趋势。
统计数据的类型

  1. 按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
    分类数据(categorical data) 是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用 文字 来表述的。可以用数字代码来表示各个类别。例如1为男、0为女。通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和χ2检验(卡方)等。
    顺序数据(rank data) 是只能归于某一有序类别的 非数字型 数据。顺序数据虽然也是类别,但这些类别是有序的。比如:一等奖、二等奖….同样顺序数据也可以用数字代码表示:1为同意、2为中立、3为不同意。计算其中位数和四分位差,计算等级相关系数等。
    数值型数据(metric data) 是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据。计算各种统计量、进行参数估计和检验等。
    分类数据和顺序数据——定性数据或品质数据(qualitative data)(说明的是事物的品质特征)
    数值型数据——定量数据或数量数据(quantitative data)(现象的数量特征)

  2. 按照数据的收集方法,可以分为观测数据和实验数据。
    观测数据(observational data) 是通过调查或观测收集到的数据(没有进行人为控制——社会经济现象)
    实验数据(experimental data) 实验中控制实验对象而收集到的数据。(自然科学领域)
    3.按照被描述的现象与实践的关系,可以将统计数据分为截面数据和时间序列数据。
    **截面数据(cross-sectional data)**是在相同或近似相同的时间点上收集数据,描述现象在某一时刻的变化情况。(各地区GDP)
    时间序列数据(time series data) 在不同时间收集到的数据。按时间顺序收集。(一段数据的GDP数据)

  3. 总体和样本
    总体(population)包含全部数据的集合,组成总体的每个元素称为个体。可以根据研究的目的来定义总体。
    总体根据其所包含的单位数目是否可数可以分为有限总体(总体的范围能够明确确定且元素是有限可数的——待检验的灯泡)和无限总体(总体所包括的元素无限不可数——实验数据,实验可以无限进行下去)。
    总体分为有限(无限)总体主要是为了判别在抽样中每次抽取 是否独立。(有限可能会影响到抽样推断的结果)。
    样本(sample)从总体抽取一部分元素的集合,构成样本的元素的数目称为样本量(sample size)——根据样本提供的信息推断总体的特征。
    参数和统计量
    参数(parameter)用来描述 总体特征 的概括性数字度量,是研究者想要了解的总体的某种特征值。总体平均数(μ(mu))、总体标准差(σ(sigma))、总体比例(π)等。
    统计值(static)是用来描述 样本特征 的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。关注的统计量主要有样本平均数(x-(x-bar))样本标注差s表示,样本比例用p表示。抽样的目的就是要根据样本统计量去估计总体参数。例如,用x-估计μ,s估计σ,p估计π。
    补充:z统计量、t统计量、χ2统计量、F统计量….
    变量(variable)
    是说明现象某种特征的概念,在一个 节点结果 会发生变化或出现差别。(受教育程度、XX等级)变量值(具体销售额)
    统计数据就是统计变量的某些取值,变量可以分为 分类变量(categorical variable)、顺序变量(rank variable)、数值型变量(metric variable)

  4. 根据取值的不同数值型变量又可以分为 离散型变量(discrete variable) 只能去可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举入骨髓数量、产品数量。连续型变量(continuous variable) 是一个可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如年龄、温度、零件尺寸的误差等。 也可将离散型变量当做连续型变量来处理。
    变量在多数情况下所说的和处理的是数值型变量。
    补充:随机变量、非随机变量、经验变量(empirical variable)和理论变量(theoretical variable)—z、t、χ2、F

                                         2019.1.6 
    
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值