数据相异性

1. 简述如何计算被如下属性描述的对象的相异性:

(1)标称属性;

设两个对象i, j共有p个属性,其中i和j取值相同的属性数为m,相异性即用1-m/p

(2)非对称的二元属性;

用两对象属性不同的属性数(一个取0,一个取1)比上 总属性数减去两对象属性值皆为0 的属性。

(3)数值属性。

可用闵可夫斯基距离,余弦距离等来描述其向异性。例如:切比雪夫距离,即计算两对象各属性中相差最大的的差值的绝对值。

2. 假设有一个描述仓库货品的二维数据集:

A1

A2

x1

1.5

1.7

x2

2

1.9

x3

1.6

1.8

x4

1.2

1.5

x5

1.5

1.0

该数据集包含了2个数值属性,5个数据对象。假设你的任务是根据用户提供的A1和A2上的描述,给出最相似的商品。请回答以下问题:

  1. 假设用户提供的描述为(1.4,1.6),分别使用欧氏距离、曼哈顿距离、上确界距离和余弦距离给出查找结果(完整过程)。

(2)假设公司将该数据集修改成大规模数据集,且每个数据对象都是高维数据,请分析欧氏距离、曼哈顿距离、上确界距离和余弦距离在该数据集上的优缺点,给出你认为最合适的相似性度量方式并给出理由。

回答区域

1.

(1)标称属性;

设两个对象i, j共有p个属性,其中i和j取值相同的属性数为m,相异性即用1-m/p

(2)非对称的二元属性;

用两对象属性不同的属性数(一个取0,一个取1)比上 总属性数减去两对象属性值皆为0 的属性。

(3)数值属性。

可用闵可夫斯基距离,余弦距离等来描述其向异性。例如:切比雪夫距离,即计算两对象各属性中相差最大的的差值的绝对值。

2.

(1)

欧式距离:             

distx1=(1.4-1.5)2+1.6-1.72=0.02

distx2=1.4-2.02+1.6-1.92=0.45

distx3=1.4-1.62+1.6-1.92=0.13

distx4=(1.4-1.2)2+1.6-1.52=0.05

distx5=(1.4-1.5)2+1.6-1.02=0.37

                              X1产品最相似

曼哈顿距离:

distx1= 1.4-1.5+1.6-1.7=0.2

distx2= 1.4-2.0+1.6-1.9=0.9

distx3= 1.4-1.6+1.6-1.9=0.5

distx4= 1.4-1.2+1.6-1.5=0.3

distx5= 1.4-1.5+1.6-1.0=0.7

X1产品最相似

上确界距离(切比雪夫):

distx1= max1.4-1.5, |1.6-1.7|=0.1

distx2= max1.4-2.0,1.6-1.9=0.6

distx3= max1.4-1.6,1.6-1.9=0.3

distx4= max1.4-1.2,1.6-1.5=0.2

distx5= max1.4-1.5, |1.6-1.0|=0.6

X1产品最相似

余弦距离:

distx1=1- 1.4*1.5+1.6*1.71.42+1.62*1.52+1.72= -0.00062

distx2=1- 1.4*2.0+1.6*1.91.42+1.62*2.02+1.92=0.01256

distx3=1- 1.4*1.6+1.6*1.91.42+1.62*1.62+1.92=0.0568

distx4=1- 1.4*1.2+1.6*1.51.42+1.62*1.22+1.52=0.1108

distx5=1- 1.4*1.5+1.6*1.01.42+1.62*1.52+1.02=0.1035

                     X1产品最相似

欧式距离:

优点:易于计算,直观,易理解

缺点:对于大规模高位数据,即使每一维差别很小,积累起来也会导致距离很大,欧氏距离与位数相关,取值范围为【0,+无穷】

       曼哈顿距离:

优点:易于计算

缺点:同欧氏距离

上确界距离:

                            优点:不受维数影响

                            缺点:不考虑特征之间的相关性,可能无法准确捕捉数据集的结构信息。

余弦距离:

                            优点:不受维数影响,取值范围稳定在[0,2],适用于高维数据

                            缺点:只考虑了向量之间的方向关系,不考虑数据间的距离。

余弦距离最合适。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值