【机器学习理论基础】定量变量和定性变量

一 定量变量和定性变量

1.1 定量变量(quantitative variable)

取值是定量的,有计算意义的。如年龄、家庭人口数量这类变量。

1.2 定性变量(quanlitative variable)

取值是定性的,主要起代号作用。如学历、婚姻状况和就业情况等。
为了对定性变量进行统计学处理,往往需要对其进行编码处理,如性别“男为0,女为1”。所以,在实际的统计工作中,不需要输入汉字,而是将其转换为相应的数字。

变量取值举例
定量变量取值是定量的、有计算意义的年龄、家庭人口数
定性变量取值是定性的、主要起代号作用学历、婚姻状况和就业情况

二 连续变量和离散变量

2.1 连续变量(continuous variable)

取值范围在理论上是连续不断的。如年龄变量的取值范围在理论上可以取任意正实数,注意不是正整数,比如一个人的年龄可以记为17.55岁,表示年龄为17岁6个月18天,甚至还可以利用出生时刻的信息精确到更小的时间单位(如“分、秒”)。

2.2 离散变量

取值范围是间断而不连续的。如家庭人口数这一变量就是相对于连续变量的另一类,即,因为不同家庭的人口数只可能相差0、1、2,而不能相差1.1、1.2等。

变量取值举例
连续变量取值范围理论上是连续不断的年龄变量
离散变量取值范围间断而不连续家庭人口数

由此可见,一般仅定量变量有连续和离散之分,即一个定量变量要么是连续的、要么是离散的。
相较而言,定性变量从数据表现上虽然和离散变量类似,但由于它只具有“代号”意义,所以一般不把它视为离散变量。

变量取值举例连续变量/离散变量
定量变量取值是定量的、有计算意义的年龄、家庭人口数有连续和离散之分
定性变量取值是定性的、主要起代号作用学历、婚姻状况和就业状况不把它视为离散变量

三 定性变量的分类

定性变量的取值往往表现为互不交叉的类别(所以定性变量也称分类变量),同时这些类别有时会存在细微的差别。

3.1 有序分类变量

如学历这类定性变性变量的取值为“文盲、小学、初中、高中……”,透露出一种等级或顺序的感觉,因此也称之为有序分类变量,这是指其取值的各类别之间存在着程度上的差别。
另外一个常见的例子是“满意程度”,包括“很不满意、不满意、一般、满意、非常满意”。这类有序分类变量给人一种“半定量”的感觉,也称为“等级变量”;

变量取值举例
有序分类变量取值的各类别之间存在着程度上的差别学历
等级变量满意程序

3.2 无序分类变量

与之相对的另一类定性变量,即无序分类变量,其各个取值则不存在程度的差异,比如性别、血型等。

变量取值举例
有序分类变量取值的各类别之间存在着程度上的差别学历
无序分类变量取值的各类别之间不存在着程度上的差别性别、血型

对于无序分类变量,根据取值的不同又可分为“二项分类变量”和“多项分类变量”,比如性别(一般情况)只分为男女两类,所以称之为二分类,而血型类别较多,可称为多分类。

变量取值举例
无序分类变量二项分类变量性别
无序分类变量多项分类变量血型

参考链接

  • http://www.360doc.com/content/23/0525/06/65434111_1082027721.shtml
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据AI

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值