[草稿] 相似度 相异度 (数据挖掘)

属性类型

标称的    好 坏      员工编号

序数的    1 2 3 4 5 6 ...

区间或比率的     意味着数据时连续的   d=|x-y|       s= -d  或  s=1/(1+d)  或  s=e^-d  s= 1-(归一化的d)

 

闵可夫斯基距离   p=1  p=2  p=oo

 

非度量相异度:

集合差

A={1,2,3,4}  B={2,3,4}

A-B={1}   B-A=空集   可定义相异度为d(A,B)= size(A-B)+size(B-A)

时间

d(t1,t2)=   if  t1<t2    t2-t1

                if  t1>=t2  24+(t2-t1)

 

二元属性相似性度量

SMC=F00 F11

Jarccard=F11

 

对于向量   →  余弦相似度  cos(x,y)

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值