若干规范化与距离公式
规范化
最小-最大规范化
x ′ = x − m i n m a x − x ( n e w m a x − n e w m i n ) + n e w m i n x'=\dfrac{x-min}{max-x}(new_{max}-new_{min})+new_{min} x′=max−xx−min(newmax−newmin)+newmin
z-score规范化
x ′ = x − A ˉ σ A x'=\dfrac{x-\bar{A}}{\sigma_A} x′=σAx−Aˉ
按小数定标规范化
x ′ = x 1 0 j x'=\dfrac{x}{10^j} x′=10jx
距离公式
曼哈顿距离
D i s t ( x , y ) = ∑ ∣ x i − y i ∣ Dist(x,y)=\sum|x_i-y_i| Dist(x,y)=∑∣xi−yi∣
欧几里得距离
∑ ( x i − y i ) 2 \sqrt{\sum(x_i-y_i)^2} ∑(xi−yi)2
切比雪夫距离
lim p → ∞ ( ∑ ∣ x i − y i ∣ p ) 1 p \lim_{p\to\infty}(\sum|x_i-y_i|^p)^{\dfrac{1}{p}} p→∞lim(∑∣xi−yi∣p)p1
闵可夫斯基距离
( ∑ ∣ x i − y i ∣ p ) 1 p (\sum|x_i-y_i|^p)^{\dfrac{1}{p}} (∑∣xi−yi∣p)p1
杰卡德距离
s i m ( A , B ) = ∑ x i y i ∑ x i 2 − ∑ x i y i + ∑ y i 2 = 1 − d j ( A , B ) = ∣ A ∩ B ∣ ∣ A ∪ B ∣ sim(A,B)=\frac{\sum x_i y_i}{\sum x_i^2-\sum x_i y_i+\sum y_i^2}=1-d_j(A,B)=\frac{|A\cap B|}{|A\cup B|} sim(A,B)=∑xi2−∑xiyi+∑yi2∑xiyi=1−dj(A,B)=∣A∪B∣∣A∩B∣
相似性度量
标称属性的相似性度量
S i m ( X ˉ , Y ˉ ) = ∑ S ( x i , y i ) Sim(\bar X,\bar Y)=\sum S(x_i ,y_i) Sim(Xˉ,Yˉ)=∑S(xi,yi)
转化为多个二元属性,同属性总数/属性总数
组合异种属性的相似性度量( 欧几里得距离的扩展马氏距离)
( X ˉ − Y ˉ ) ∑ − 1 ( X ˉ − Y ˉ ) T (\bar X -\bar Y)\sum ^{-1}(\bar X -\bar Y)^T (Xˉ−Yˉ)∑−1(Xˉ−Yˉ)T
文本相似性度量
cos ( X ˉ , Y ˉ ) = X ˉ Y ˉ ∣ ∣ X ˉ ∣ ∣ ⋅ ∣ ∣ Y ˉ ∣ ∣ \cos(\bar X,\bar Y)=\frac{\bar X \bar Y}{||\bar X||·||\bar Y||} cos(Xˉ,Yˉ)=∣∣Xˉ∣∣⋅∣∣Yˉ∣∣XˉYˉ
编辑距离
E d i t ( i , j ) = { E d i t ( i − 1 , j − 1 ) , x i = y i min ( E d i t ( i − 1 , j ) + w d e t , E d i t ( i , j − 1 ) + w i n s , E d i t ( i − 1 , j − 1 ) + w r e p ) , x i ≠ y i Edit(i,j)=\begin{cases}Edit(i-1,j-1),&x_i=y_i\\\min(Edit(i-1,j)+w_{det},Edit(i,j-1)+w_{ins},Edit(i-1,j-1)+w_{rep}),&x_i\neq y_i\end{cases} Edit(i,j)={Edit(i−1,j−1),min(Edit(i−1,j)+wdet,Edit(i,j−1)+wins,Edit(i−1,j−1)+wrep),xi=yixi=yi