Day1
Never Say Goodbye.
Ray
1.1-1.2
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所用的方法可分为描述统计方法和推断统计方法,描述统计(descpritive statistics)研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。推断统计(inferential statistics)是研究如何利用样本数据来推断总体特征的统计方法。数据分析分析的不是每天的数据,而是一种变化的趋势。
统计数据的类型
-
按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
分类数据(categorical data) 是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用 文字 来表述的。可以用数字代码来表示各个类别。例如1为男、0为女。通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和χ2检验(卡方)等。
顺序数据(rank data) 是只能归于某一有序类别的 非数字型 数据。顺序数据虽然也是类别,但这些类别是有序的。比如:一等奖、二等奖….同样顺序数据也可以用数字代码表示:1为同意、2为中立、3为不同意。计算其中位数和四分位差,计算等级相关系数等。
数值型数据(metric data) 是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据。计算各种统计量、进行参数估计和检验等。
分类数据和顺序数据——定性数据或品质数据(qualitative data)(说明的是事物的品质特征)
数值型数据——定量数据或数量数据(quantitative data)(现象的数量特征) -
按照数据的收集方法,可以分为观测数据和实验数据。
观测数据(observational data) 是通过调查或观测收集到的数据(没有进行人为控制——社会经济现象)
实验数据(experimental data) 实验中控制实验对象而收集到的数据。(自然科学领域)
3.按照被描述的现象与实践的关系,可以将统计数据分为截面数据和时间序列数据。
**截面数据(cross-sectional data)**是在相同或近似相同的时间点上收集数据,描述现象在某一时刻的变化情况。(各地区GDP)
时间序列数据(time series data) 在不同时间收集到的数据。按时间顺序收集。(一段数据的GDP数据) -
总体和样本
总体(population)包含全部数据的集合,组成总体的每个元素称为个体。可以根据研究的目的来定义总体。
总体根据其所包含的单位数目是否可数可以分为有限总体(总体的范围能够明确确定且元素是有限可数的——待检验的灯泡)和无限总体(总体所包括的元素无限不可数——实验数据,实验可以无限进行下去)。
总体分为有限(无限)总体主要是为了判别在抽样中每次抽取 是否独立。(有限可能会影响到抽样推断的结果)。
样本(sample)从总体抽取一部分元素的集合,构成样本的元素的数目称为样本量(sample size)——根据样本提供的信息推断总体的特征。
参数和统计量
参数(parameter)用来描述 总体特征 的概括性数字度量,是研究者想要了解的总体的某种特征值。总体平均数(μ(mu))、总体标准差(σ(sigma))、总体比例(π)等。
统计值(static)是用来描述 样本特征 的概括性数字度量。它是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本的函数。关注的统计量主要有样本平均数(x-(x-bar))样本标注差s表示,样本比例用p表示。抽样的目的就是要根据样本统计量去估计总体参数。例如,用x-估计μ,s估计σ,p估计π。
补充:z统计量、t统计量、χ2统计量、F统计量….
变量(variable)
是说明现象某种特征的概念,在一个 节点结果 会发生变化或出现差别。(受教育程度、XX等级)变量值(具体销售额)
统计数据就是统计变量的某些取值,变量可以分为 分类变量(categorical variable)、顺序变量(rank variable)、数值型变量(metric variable) -
根据取值的不同数值型变量又可以分为 离散型变量(discrete variable) 只能去可数值的变量,只能取有限个值,而且其取值都以整位数断开,可以一一列举入骨髓数量、产品数量。连续型变量(continuous variable) 是一个可以在一个或多个区间中取任何值的变量,它的取值是连续不断的,不能一一列举,如年龄、温度、零件尺寸的误差等。 也可将离散型变量当做连续型变量来处理。
变量在多数情况下所说的和处理的是数值型变量。
补充:随机变量、非随机变量、经验变量(empirical variable)和理论变量(theoretical variable)—z、t、χ2、F2019.1.6