1. 简述如何计算被如下属性描述的对象的相异性:
(1)标称属性;
设两个对象i, j共有p个属性,其中i和j取值相同的属性数为m,相异性即用1-m/p
(2)非对称的二元属性;
用两对象属性不同的属性数(一个取0,一个取1)比上 总属性数减去两对象属性值皆为0 的属性。
(3)数值属性。
可用闵可夫斯基距离,余弦距离等来描述其向异性。例如:切比雪夫距离,即计算两对象各属性中相差最大的的差值的绝对值。
2. 假设有一个描述仓库货品的二维数据集:
A1 | A2 | |
x1 | 1.5 | 1.7 |
x2 | 2 | 1.9 |
x3 | 1.6 | 1.8 |
x4 | 1.2 | 1.5 |
x5 | 1.5 | 1.0 |
该数据集包含了2个数值属性,5个数据对象。假设你的任务是根据用户提供的A1和A2上的描述,给出最相似的商品。请回答以下问题:
- 假设用户提供的描述为(1.4,1.6),分别使用欧氏距离、曼哈顿距离、上确界距离和余弦距离给出查找结果(完整过程)。
(2)假设公司将该数据集修改成大规模数据集,且每个数据对象都是高维数据,请分析欧氏距离、曼哈顿距离、上确界距离和余弦距离在该数据集上的优缺点,给出你认为最合适的相似性度量方式并给出理由。
回答区域
1.
(1)标称属性;
设两个对象i, j共有p个属性,其中i和j取值相同的属性数为m,相异性即用1-m/p
(2)非对称的二元属性;
用两对象属性不同的属性数(一个取0,一个取1)比上 总属性数减去两对象属性值皆为0 的属性。
(3)数值属性。
可用闵可夫斯基距离,余弦距离等来描述其向异性。例如:切比雪夫距离,即计算两对象各属性中相差最大的的差值的绝对值。
2.
(1)
欧式距离:
distx1=(1.4-1.5)2+1.6-1.72=0.02
distx2=1.4-2.02+1.6-1.92=0.45
distx3=1.4-1.62+1.6-1.92=0.13
distx4=(1.4-1.2)2+1.6-1.52=0.05
distx5=(1.4-1.5)2+1.6-1.02=0.37
X1产品最相似
曼哈顿距离:
distx1= 1.4-1.5+1.6-1.7=0.2
distx2= 1.4-2.0+1.6-1.9=0.9
distx3= 1.4-1.6+1.6-1.9=0.5
distx4= 1.4-1.2+1.6-1.5=0.3
distx5= 1.4-1.5+1.6-1.0=0.7
X1产品最相似
上确界距离(切比雪夫):
distx1= max1.4-1.5, |1.6-1.7|=0.1
distx2= max1.4-2.0,1.6-1.9=0.6
distx3= max1.4-1.6,1.6-1.9=0.3
distx4= max1.4-1.2,1.6-1.5=0.2
distx5= max1.4-1.5, |1.6-1.0|=0.6
X1产品最相似
余弦距离:
distx1=1- 1.4*1.5+1.6*1.71.42+1.62*1.52+1.72= -0.00062
distx2=1- 1.4*2.0+1.6*1.91.42+1.62*2.02+1.92=0.01256
distx3=1- 1.4*1.6+1.6*1.91.42+1.62*1.62+1.92=0.0568
distx4=1- 1.4*1.2+1.6*1.51.42+1.62*1.22+1.52=0.1108
distx5=1- 1.4*1.5+1.6*1.01.42+1.62*1.52+1.02=0.1035
X1产品最相似
欧式距离:
优点:易于计算,直观,易理解
缺点:对于大规模高位数据,即使每一维差别很小,积累起来也会导致距离很大,欧氏距离与位数相关,取值范围为【0,+无穷】
曼哈顿距离:
优点:易于计算
缺点:同欧氏距离
上确界距离:
优点:不受维数影响
缺点:不考虑特征之间的相关性,可能无法准确捕捉数据集的结构信息。
余弦距离:
优点:不受维数影响,取值范围稳定在[0,2],适用于高维数据
缺点:只考虑了向量之间的方向关系,不考虑数据间的距离。
余弦距离最合适。