目录
- 区间标度变量
- 二元变量
- 标称变量
- 序数型变量
- 比例标度变量
- 混合类型变量
1 区间标度变量
区间标度变量是一个粗略线性标度的连续度量,一般有单位描述。
数据规范化
有以下几种方法:
- 最小-最大规范化,又称离散标准化,是对原始数据进行线性变换。这种方法保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。
假设将一组数据 x x x映射到 [ a , b ] [a, ~b] [a, b]范围里: x ∗ = x − M i n M a x − M i n ⋅ ( b − a ) + a x^{*}=\frac{x-Min}{Max-Min}·(b-a)+a x∗=Max−Minx−Min⋅(b−a)+a其中 M i n 、 M a x Min、Max Min、Max为数据 x x x的最小值和最大值。当 a = 0 , b = 1 a=0,b=1 a=0,b=1时,将数据映射到区间 [ 0 , 1 ] [0,~1] [0, 1]内: x ∗ = x − M i n M a x − M i n x^{*}=\frac{x-Min}{Max-Min} x∗=Max−Minx−Min - 小数定标规范化:通过移动属性的小数点位置规范化属性范围,属性A的规范化计算方法为:
x
∗
=
x
1
0
T
x^{*}=\frac{x}{10^T}
x∗=10Tx其中,T的取值约束为:
m
a
x
(
∣
Z
i
f
∣
)
<
1
max(|Z_{if}|)<1
max(∣Zif∣)<1的最小整数。
目的:将属性值缩到小的特定区间 [ − 1 , 1 ] [-1,1] [−1,1]之间。 - Z-score规范化(最常用): x ∗ = ( x − μ ) / δ x^{*}=(x- μ)/δ x∗=(x−μ)/δ其中 μ μ μ为均值, δ δ δ为标准差。
对象间相异度
对象间相异度一般来说是基于距离的度量,常见的距离计算公式有:
- 欧几里得距离: d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2} d12=(x1−x2)2+(y1−y2)2
- 曼哈顿距离: d 12 = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d_{12}=|x_1-x_2|+|y_1-y_2| d12=∣x1−x2∣+∣y1−y2∣
- 切比雪夫距离: d 12 = m a x ( ∣ x 1 − x 2 ∣ , ∣ y 1 − y 2 ∣ ) d_{12}=max(|x_1-x_2|,~|y_1-y_2|) d12=max(∣x1−x2∣, ∣y1−y2∣)
- 汉明距离:相同位上字符不同的个数。(例如:aaaa和bbba之间的距离为3)
2 二元变量
计算机中一个二元变量有两种状态:0或1。一个对象可以包含多个二元变量。
对称二元变量
对于两个状态具有同等价值并且携带相同的权重,对称二元变量的相似度称为恒定的相似度。
评估相异度:简单匹配系数:
d
12
=
b
+
c
a
+
b
+
c
+
d
d_{12}=\frac{b+c}{a+b+c+d}
d12=a+b+c+db+c
非对称二元变量
对于两个状态具有不同等价值并或携带不同的权重,或者说偏爱某个状态,非对称二元变量的相似度称为非恒定的相似度。
评估相异度:Jaccard距离:
d
12
=
b
+
c
a
+
b
+
c
d_{12}=\frac{b+c}{a+b+c}
d12=a+b+cb+c
3 标称变量
标称变量是二元变量的推广,它可以具有多于两个的状态值。必须:红、黄、蓝、绿。(值之间的排列顺序不重要)
4 序数型变量
序数型变量可以使连续的,也可以是离散的。
序数型变量的值之间是有顺序关系的,比如:讲师、副教授、教授。
5 比例标度变量
总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如
A
e
B
t
o
r
A
e
−
B
t
Ae^{Bt}~or~Ae^{-Bt}
AeBt or Ae−Bt。
比例标度变量的比值是有意义的。
6 混合类型的变量
现实世界中,数据对象不是被一种类型的度量所描述,而是被多种类型混合的度量所描述。(上面那几种混合起来)