统计数据类型的选择取决于研究的目的和所需的分析方法。在进行统计分析时,必须确保选择合适的数据类型,以确保分析的准确性和可靠性。通过对不同类型的数据进行正确的分类和处理,可以更好地理解数据的含义和趋势,从而为决策和预测提供有力的支持。
在做数据分析和模型之前,首先就得搞清楚数据的类型。下面小编聊一聊数据的类型。
一.按照计量尺度划分
可分为分类数据和数值数据,而分类数据又分为有序分类和无序分类。
- 无序分类:
例如不同的行业(制造业、金融业、教育业等)就是一个无序分类数据,就是各个具体的行业的顺序可以打乱。为便于统计处理,对于分类数据可以用数字代码来表示各个类别,比如,用1表示“男性”,0表示“女性”;用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”,等等。 - 有序分类:
例如将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等。 - 数值数据(metric data):
是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数都是数值型数据。例如收入、人的身高、空气的温度、重量等等。
二.按照被描述的现象与时间
可以将统计数据分为截面数据和时间序列数据。
- 截面数据(cross-sectional data):
是在相同或近似相同的时间点上收集的数据这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况。比如,2010年我国各地区的国内生产总值数据就是截面数据。 - 时间序列数据(timeseries data):
时间序列数据(timeseries data)是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况。比如2010-2012年我国的国内生产总值数据就是时间序列数据。
区分数据的类型是十分重要的,因为对不同类型的数据,需要采用不同的统计方法来处理和分析。比如,对分类数据,我们通常计算出各组的频数或频率,计算其众数和异众比率,进行列联表分析和检验等;对顺序数据,可以计算其中位数和四分位差,计算等级相关系数等;对数值型数据,可以用更多的统计方法进行分析,如计算各种统计量,进行参数估计和检验等。时间序列数据可采用ARIMA模型、VAR模型、误差修正模型等。
三.可供参考
以上定义来源于贾俊平老师的统计学教材。而对于时间序列数据和截面数据的集合则叫做面板数据,经常采用面板数据回归,探究随机效应和固定效应的影响。其实在实际生活中各个数据之间的划分界限没有那么明显。遇到实际数据可做如下参考。
-
**凡是其数字代码能比较大小,也就是数字代码的大小能有意义的就是数值型数据,否则为分类数据。**例如企业中用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”,那么也可以用1表示“纺织品企业”,2表示“医药企业”,3表示“家电企业”,这个数字代码就不能比较大小,不能说2就比1大,也就是说在这个变量中讨论2比1大无意义;而在身高中,1表示“170”,2表示“180”,“180”确实高于“170”,所以这里的2比1大就有意义,可以理解为数字代码越高,身高越高。其他类似。
-
**有序分类可作为数值型,而数值型可转化为有序分类。**因为有序分类的数字代码是有比较意义的,身高(0-200)则可化为1表示“150及以下”,2表示“150-160”,3表示“160-170”,4表示“170-180”,5表示“180及以上”。
-
**无序分类数据只能当做分类数据处理,除非是将其变作哑变量。**例如企业中用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”,那么可以将企业这一个变量转变为三个变量,即是否为医药企业(只有是和否两种选择),是否为家电企业(只有是和否两种选择),是否为纺织品企业(只有是和否两种选择)。
不同的数据类型对应着不同的数据模型,若是分类数据的效果不显著,则可试一试转化为数值型。