统计学里的变量(Variable)

※ 版权所有,转载请联系作者 ※

从前在学习数学的时候,有例如2X+4Y=20的式子,在这个式子中,2和4是常量(Constant),X和Y是变量,顾名思义,X和Y是不确定的变化的量值。

在数学中,上面这个式子,可能是三个串成一条直线的珠子a、b、c,b可以左右滑动在中间,a和c在两边固定,2X表示ab的距离,4Y表示bc的距离,ac的距离是20,于是如果X=2,Y=4;X=3,Y=3,X和Y不是确定的值。在物理学中变量可能是速度、时间、距离、温度等等;在医学中变量可能是药物的有效作用时间,药品的价格,患者的年龄等;在社会学中变量可能是工资、利润、成本、年龄等;在教育学中变量可能是学生的学习成绩、毅力、智力、情商、创造力等;在心理学中变量可能是心理疾病程度、领导力等。所以很多时候还用Xi 和Yi 来表示第i个变量X或Y的值。

1. 变量的分类(Type of variable)

总而言之,这些变量是一些数值,可以数数或者测量出来,所以这些变量是量化的定量变量(或数值变量,quantitative or numeric variable)但是还有一些如性别、民族、肤色、喜欢与否、喜欢程度等进行分类的定性的变量(或分类变量/属性变量,qualitative, categorical or attribute variable),比如男和女,汉族、蒙古族等,白色肤色、黄色肤色、黑色肤色等。

变量的概念在统计学里,变量也就是就是一种可以进行测量的数据条目(data item),对于变量的定义在统计学里非常重要,尤其是在进行SPSS分析的时候,需要明确定义一个变量的性质,否则将会引起歧义。其实当你打开SPSS软件时,数据录入界面上面就显示的全部是变量,如图黄色高亮的部分就是变量:

就在上面所举的例子里面,可以发现,年龄是可以数的,民族和性别是可以分类的,温度是可以测量的,工资是可以计算的。也就是说这么多的变量也是各有不同的。像可以对数量多少(how many or how much)进行测量的称为定量变量,进行分类的称为定性变量。对于定量变量的数值进行加减求平均的计算是有意义的,但是对于定量变量进行加减求平均其实是没有意义的,如汉族乘以蒙古族并不能得出什么,白色肤色减去黄色肤色也不能得出什么。


(1)在定性变量,存在着一些规律,如例子:性别、种族、肤色、血型、颜色这种类型的变量的信息之间没有等级区分,如并不能说性别男大于女,也不能给种族拍个优先顺序,所以这些变量是无序的,只作为分类,因此只给不同的类型取一个名字,所以这类变量称为无序变量(unordered-qualitative variable)。因此总结一下,无序变量是没有顺序、没有等级划分,但是能够被分类(classified)和计数(counted)的一种变量
与命名变量对比的就是有序变量(ordered-qualitative bariable),这类变量可以进行等级划分,进行排序比较,比如喜欢的程度可以分为高中低,高中的年级可以是高一、高二、高三,学历可以分为小学、中学、高中、大学、研究生等。但是却不能知道每个等级之间具体相差的是多少,比如好与更好之间的差。这也是定性变量的一个性质。

(2)在定量变量中也存在着一些规律,有些变量是离散的不能够连续的,称为离散变量(或非连续性变量,discrete or uncontinuous variable),这这类型的变量只能取到的是某些特定的值,而且这些值之间存在着一些“间隔/间隙”。比如,休假的日期只可以是4天、5天、7天等,一天每小时到达北京火车站的火车的数量等。

不过,有些变量是连续变量(continuous variable,是在给定的范围内,可以取到任何的数值的变量,其实也就是可以有小数点的变量,离散变量中,不能说每小时到达2.3个火车,但是比如体重可以是50.3kg,每小时到达火车的数量只可能是2个或者三个,这是离散变量,但是体重可能是50.3kg,也可能是50.33kg,这个体重就是一个连续变量。连续变量通常四舍五入取小数点后三位。

2. 变量的测量尺度(Measure of variable)

在介绍变量的测量尺度之前,先简单的介绍一下测量(measurement)。测量就是将数分配给一个对象(object)或者事件(event)的特征(characteristic),这样可以使其与其他对象或特征进行比较。也就是用数值对事物或其特征进行比较。尺度(scale)就是为了测量而建立的准则。

在统计学中,变量的测量尺度分有以下四个。

(1)定类尺度/明目尺度(nominal scale)

定类尺度是根据事物的特点对其进行分类的一种尺度,赋予定类尺度的数值只是为了区分种类,没有顺序大小而言,如在SPSS中可以将性别分为男女,男赋值1,女赋值2,虽然2>1,但并不代表女>男。同时在这里数值1与2也不可以相加,因为男+女并没有任何的意义。因此定类尺度并不能够进行数学计算。这样的例子还有民族、血型、颜色、肤色、电话号码等。

(2)顺序尺度/等级尺度(ordinal scale)

顺序尺度是给事物区分等级的一种尺度,是一种分类(即包含定类尺度的特点)。比如喜欢的程度有喜欢、比较喜欢、非常喜欢,学历有小学、初中、高中、大学、研究生,年级有一、二、三等。赋予的数值也是为了区分其等级,如学历的小学是1、初中是2、高中是3、大学是4、研究生是5,但是却不能将其相加,因为不能说小学(1)+初中(2)就等于高中(3)。等级之间存在差别,但是具体差异的程度却不是明确的,比如喜欢的程度中喜欢是1、比较喜欢是2、非常喜欢是3,却不能说非常喜欢(3)减去比较喜欢(2)就是喜欢(1)。因此顺序尺度的数值也是不可以进行数学计算的。

(3)间隔尺度/等距尺度(interval scale)

间隔尺度是指事物的数值之间具有一定的间隔,这个间隔是等距的,因此也被成为是等距尺度。比如华氏温度(不是温度差)、时间(不是小时),这样的数据是连续的,同时没有实际意义的0点。因为0°C并不代表没有温度,00:00也不代表是没有的时间。不过1°C、2°C、3°C、4°C...的间隔都是1°C;时间也是比如1:00、2:00、3:00间隔是1个小时。间隔尺度的对象有顺序、可以进行比较,也就是具有定类尺度和顺序尺度的所有特点。比如3点比2点晚,同时晚了1个小时(3-2=1);2017年比2018年早,而且早一年(2018-2017=1)。这类尺度研究的事物只能对其间隔进行计算,也就是说只可进行加减计算,却不能进行乘除计算,比如1点*2点并没有什么意义,2018年/2017年也没有任何意义。

(4)比例尺度/定比尺度(ratio scale)

有这样一类数据,连续的,同时存在类别、顺序、可以比较大小、有差异、可以相加、可以计算比例、也可以相乘,而且0点具有实际的意义,比如收入(income),0就代表没有任何收入,一个公司部门4个员工的月收入是A:2000、B:5000、C:8000、D:10000,B比A的月收入多3000,C的月收入是A的4倍,D的月收入是B的2倍。这样的数据还有,绝对温度,利润等。


3. SPSS软件

在SPSS分析软件中,如下图所示,“Type”列是选择变量类型(Variable Type)的地方,右面“Measure”列选的是测量尺度(Measure scale)的地方,因为SPSS一般是对数值进行处理,因此一般变量的类型(Type)会选择“Numeric“【仅在于说明是一般情况】


Data->Define variable propertities就可以进行更详细的编辑,同时能够更具体看到SPSS中是如何定义尺度的。





参考文献:

Lind, D. A., Marchal, M. G. & Wathen S. A. (2011). Statistical Techniques in Business & Economics (15th ed.). McGraw-Hill/Irwin. 

성태제.(2011). 현재 기초통계학-이해와 적용(6판). 학지사.

“Measurement,”n.d., para 1.

  • 11
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值