1、数据属性
数据属性可以是标称的、二元的、序数的、数值的
- 标称的数据
标称属性又可以看作是分类的
对于标称属性,平均值和中位数没有意义,属性最常出现的值,众数是有意义的
例如:婚姻状况(单身、已婚、离异、丧偶) - 二元的数据
二元属性也是一种标称属性,只有2个类别或状态:0或1
其中0代表该属性不出现,1代表属性出现
如果两种状态对应True和False的话,那二元数据也称为布尔数据
例如:性别(男、女) - 序数的数据
序数属性,其可能值之间具有有意义的序,但是相继之间的差是未知的
序数属性的中心趋势可以用众数和中位数表示,但不能用均值
例如:教师等级(助教、讲师、副教授、教授) - 数值的数据
数值属性是定量的,是可以度量的,用整数或实数表示。可以是区间标度的或者比率标度的
区间标度属性:区间标度属性用相等的单位尺度度量,区间属性的值有序,可以为正、0、负
例如:温度属性是区间标度的
比率标度属性:比率标度的属性是具有固有零点的数值属性,如果度量是比率标度的,我们可以说一个值是另一个值得倍数(或比率)
例如:重量,高度,速度等属性
注意:标称、二元、序数属性都是定性的,他们描述对象的特征,而不给出实际的大小或数量,这种定性属性的词通常是代表类别的词。数值属性可以用均值、中位数、众数表示中心趋势
机器学习领域的分类算法通常把属性分成离散的和连续的
离散属性具有有限或者无限个可能值,可以用或者不用整数表示
例如:用户ID
连续属性于数值属性的差别:在经典意义下,连续值是实数,而数值值可以是整数或实数,连续属性一般用浮点变量表示
2、数据的基本统计描述
2.1 中心趋势度量
-
均值
平均数的一般度量,是应用最广泛的统计度量之一,通常用 μ \mu μ表示
μ = ∑ i = 1 n x n \mu=\frac{\displaystyle\sum_{i=1}^nx}{n} μ=ni=1∑nx