【数据挖掘】壹 · 数据度量及预处理

目录

  1. 区间标度变量
  2. 二元变量
  3. 标称变量
  4. 序数型变量
  5. 比例标度变量
  6. 混合类型变量

1 区间标度变量

区间标度变量是一个粗略线性标度的连续度量,一般有单位描述。

数据规范化
有以下几种方法:

  • 最小-最大规范化,又称离散标准化,是对原始数据进行线性变换。这种方法保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。
    假设将一组数据 x x x映射到 [ a ,   b ] [a, ~b] [a, b]范围里: x ∗ = x − M i n M a x − M i n ⋅ ( b − a ) + a x^{*}=\frac{x-Min}{Max-Min}·(b-a)+a x=MaxMinxMin(ba)+a其中 M i n 、 M a x Min、Max MinMax为数据 x x x的最小值和最大值。当 a = 0 , b = 1 a=0,b=1 a=0b=1时,将数据映射到区间 [ 0 ,   1 ] [0,~1] [0, 1]内: x ∗ = x − M i n M a x − M i n x^{*}=\frac{x-Min}{Max-Min} x=MaxMinxMin
  • 小数定标规范化:通过移动属性的小数点位置规范化属性范围,属性A的规范化计算方法为: x ∗ = x 1 0 T x^{*}=\frac{x}{10^T} x=10Tx其中,T的取值约束为: m a x ( ∣ Z i f ∣ ) < 1 max(|Z_{if}|)<1 max(Zif)<1的最小整数。
    目的:将属性值缩到小的特定区间 [ − 1 , 1 ] [-1,1] [1,1]之间。
  • Z-score规范化(最常用): x ∗ = ( x − μ ) / δ x^{*}=(x- μ)/δ x=(xμ)/δ其中 μ μ μ为均值, δ δ δ为标准差。

对象间相异度
对象间相异度一般来说是基于距离的度量,常见的距离计算公式有:

  • 欧几里得距离 d 12 = ( x 1 − x 2 ) 2 + ( y 1 − y 2 ) 2 d_{12}=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2} d12=(x1x2)2+(y1y2)2
  • 曼哈顿距离 d 12 = ∣ x 1 − x 2 ∣ + ∣ y 1 − y 2 ∣ d_{12}=|x_1-x_2|+|y_1-y_2| d12=x1x2+y1y2
  • 切比雪夫距离 d 12 = m a x ( ∣ x 1 − x 2 ∣ ,   ∣ y 1 − y 2 ∣ ) d_{12}=max(|x_1-x_2|,~|y_1-y_2|) d12=max(x1x2, y1y2)
  • 汉明距离:相同位上字符不同的个数。(例如:aaaa和bbba之间的距离为3)

2 二元变量

计算机中一个二元变量有两种状态:0或1。一个对象可以包含多个二元变量。
在这里插入图片描述

对称二元变量
对于两个状态具有同等价值并且携带相同的权重,对称二元变量的相似度称为恒定的相似度。
评估相异度:简单匹配系数 d 12 = b + c a + b + c + d d_{12}=\frac{b+c}{a+b+c+d} d12=a+b+c+db+c

非对称二元变量
对于两个状态具有不同等价值并或携带不同的权重,或者说偏爱某个状态,非对称二元变量的相似度称为非恒定的相似度。
评估相异度:Jaccard距离
d 12 = b + c a + b + c d_{12}=\frac{b+c}{a+b+c} d12=a+b+cb+c

3 标称变量

标称变量是二元变量的推广,它可以具有多于两个的状态值。必须:红、黄、蓝、绿。(值之间的排列顺序不重要)

4 序数型变量

序数型变量可以使连续的,也可以是离散的。
序数型变量的值之间是有顺序关系的,比如:讲师、副教授、教授。

5 比例标度变量

总是取正的度量值,有一个非线性的标度,近似的遵循指数标度,比如 A e B t   o r   A e − B t Ae^{Bt}~or~Ae^{-Bt} AeBt or AeBt
比例标度变量的比值是有意义的。

6 混合类型的变量

现实世界中,数据对象不是被一种类型的度量所描述,而是被多种类型混合的度量所描述。(上面那几种混合起来)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值