规范化与距离公式

规范化

最小-最大规范化

x ′ = x − m i n m a x − x ( n e w m a x − n e w m i n ) + n e w m i n x'=\dfrac{x-min}{max-x}(new_{max}-new_{min})+new_{min} x=maxxxmin(newmaxnewmin)+newmin

z-score规范化

x ′ = x − A ˉ σ A x'=\dfrac{x-\bar{A}}{\sigma_A} x=σAxAˉ

按小数定标规范化

x ′ = x 1 0 j x'=\dfrac{x}{10^j} x=10jx

距离公式

曼哈顿距离

D i s t ( x , y ) = ∑ ∣ x i − y i ∣ Dist(x,y)=\sum|x_i-y_i| Dist(x,y)=xiyi

欧几里得距离

∑ ( x i − y i ) 2 \sqrt{\sum(x_i-y_i)^2} (xiyi)2

切比雪夫距离

lim ⁡ p → ∞ ( ∑ ∣ x i − y i ∣ p ) 1 p \lim_{p\to\infty}(\sum|x_i-y_i|^p)^{\dfrac{1}{p}} plim(xiyip)p1

闵可夫斯基距离

( ∑ ∣ x i − y i ∣ p ) 1 p (\sum|x_i-y_i|^p)^{\dfrac{1}{p}} (xiyip)p1

杰卡德距离

s i m ( A , B ) = ∑ x i y i ∑ x i 2 − ∑ x i y i + ∑ y i 2 = 1 − d j ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ sim(A,B)=\frac{\sum x_i y_i}{\sum x_i^2-\sum x_i y_i+\sum y_i^2}=1-d_j(A,B)=\frac{|A\cap B|}{|A\cup B|} sim(A,B)=xi2xiyi+yi2xiyi=1dj(A,B)=ABAB

相似性度量

标称属性的相似性度量

S i m ( X ˉ , Y ˉ ) = ∑ S ( x i , y i ) Sim(\bar X,\bar Y)=\sum S(x_i ,y_i) Sim(Xˉ,Yˉ)=S(xi,yi)

转化为多个二元属性,同属性总数/属性总数

组合异种属性的相似性度量( 欧几里得距离的扩展马氏距离)

( X ˉ − Y ˉ ) ∑ − 1 ( X ˉ − Y ˉ ) T (\bar X -\bar Y)\sum ^{-1}(\bar X -\bar Y)^T (XˉYˉ)1(XˉYˉ)T

文本相似性度量

cos ⁡ ( X ˉ , Y ˉ ) = X ˉ Y ˉ ∣ ∣ X ˉ ∣ ∣ ⋅ ∣ ∣ Y ˉ ∣ ∣ \cos(\bar X,\bar Y)=\frac{\bar X \bar Y}{||\bar X||·||\bar Y||} cos(Xˉ,Yˉ)=∣∣Xˉ∣∣∣∣Yˉ∣∣XˉYˉ

编辑距离

E d i t ( i , j ) = { E d i t ( i − 1 , j − 1 ) , x i = y i min ⁡ ( E d i t ( i − 1 , j ) + w d e t , E d i t ( i , j − 1 ) + w i n s , E d i t ( i − 1 , j − 1 ) + w r e p ) , x i ≠ y i Edit(i,j)=\begin{cases}Edit(i-1,j-1),&x_i=y_i\\\min(Edit(i-1,j)+w_{det},Edit(i,j-1)+w_{ins},Edit(i-1,j-1)+w_{rep}),&x_i\neq y_i\end{cases} Edit(i,j)={Edit(i1,j1),min(Edit(i1,j)+wdet,Edit(i,j1)+wins,Edit(i1,j1)+wrep),xi=yixi=yi

  • 19
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值