离群点
d i s t a n c e k ( O ) distance_k(O) distancek(O)
选取 k k k 个离 O O O 点最近的点,以最远的一个点为半径画圆,表示 O O O点的距离。
距离相同的点算作一个点,即有可能最终得到的点多于 k k k 。
则两点之间的距离定义如下:
d i s t a n c e k ( A , B ) = m a x { d i s t a n c e k ( B ) , d ( A , B ) } distance_k(A,B)=max\{distance_k(B), d(A,B)\} distancek(A,B)=max{distancek(B),d(A,B)}
通常为 d ( A , B ) d(A,B) d(A,B),即欧式距离。对于每个点 A A A 定义如下度量。
l r d ( A ) = 1 / ( ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ ) lrd(A)=1/ \left( \frac{\sum\nolimits_{B\in N_k(A)}distance_k(A,B)}{\mid N_k(A)\mid}\right) lrd(A)=1/(∣Nk(A)∣∑B∈Nk(A)distancek(A,B))
分母表示有多少个近邻,一般为 k k k,公式后半段表示点 A A A到其近邻点到平均距离。 l r d lrd lrd越大,表示与其近邻越近。则判断离群点到依据如下:
L O F k ( A ) = ∑ B ∈ N k ( A ) l r d ( B ) l r d ( A ) ∣ N k ( A ) ∣ LOF_k(A)=\frac {\sum\nolimits_{B\in N_k(A)} \frac{lrd(B)}{lrd(A)} } {\mid N_k(A) \mid} LOFk(A)=∣Nk(A)∣∑B∈Nk(A)lrd(A)lrd(B)
最终得到的 L O F LOF LOF越大,是离群点的可能性越大。
不平衡数据集
下列公式用于度量处理该类数据时,分类器的好坏
G − m e a n = ( A c c + × A c c − ) 1 / 2 A c c + = T P T P + F N ; A c c − = T N T N + F P G-mean = \left(Acc^+ \times Acc^-\right)^{1/2}\\[2ex] Acc^+ = \frac{TP}{TP+FN}; \quad Acc^- = \frac{TN}{TN+FP} G−mean=(Acc+×Acc−)1/2Acc+=TP+FNTP;Acc−=TN+FPTN
该公式考虑分类器对两种类型数据各自的准确率。
T P + F N TP + FN TP+FN表示的是某类数据的实际个数,其分子表示正确预测该类数据的个数。另一个分式表示相同概念。
F − m e a s u r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l P r e c i s i o n = T P T P + F P ; R e c a l l = T P T P + F N F-measure = \frac{2\times Precision \times Recall}{Precision + Recall} \\[2ex] Precision=\frac{TP}{TP+FP}; \quad Recall=\frac{TP}{TP + FN} F−measure=Precision+Recall2×Precision×RecallPrecision=TP+FPTP;Recall=TP+FNTP
精确率表示预测值多于实际值,召回率表示预测值少于实际值。
标准化
Min-max normalization
v ′ = v − m i n m a x − m i n ( n e w _ m a x − n e w _ m i n ) + n e w _ m i n v' = \frac{v-min}{max-min}(new\_max-new\_min)+new\_min v′=max−minv−min(new_max−new_min)+new_min
其中最大最小值为原始数据中的值,新的最大最小值为映射空间上的值,通常为1,0。
用于有明确上下界的数据。无界数据的标准化如下。
Z-score normalization
v
′
=
v
−
μ
σ
μ
:
m
e
a
n
,
σ
:
s
t
a
n
d
a
r
d
d
e
v
i
a
t
i
o
n
v' = \frac{v-\mu}{\sigma} \\[2ex] \mu:mean,\sigma:standard\quad deviation
v′=σv−μμ:mean,σ:standarddeviation
熵
数值越大,表示系统不确定性越高。
定义:
H
(
X
)
=
−
∑
i
=
1
n
p
(
x
i
)
log
b
p
(
x
i
)
H(X)=-\sum_{i=1}^np(x_i)\log_bp(x_i)
H(X)=−i=1∑np(xi)logbp(xi)
应用实例,来源学堂在线。
已知原始数据男女比例 1:1 ,抽烟与不抽烟为 0.4 与 0.6 。现新知到数据抽烟中男女为 0.95 与 0.05 。不抽烟中男女为 0.2 与 0.8 。
设X:{a="Non-Smoker;b=“smoker”}
H ( S ) = − 0.5 ⋅ log 2 0.5 − 0.5 ⋅ log 2 0.5 = 1.0 H ( S ∣ X = a ) = − 0.8 ⋅ log 2 0.8 − 0.2 ⋅ log 2 0.2 = 0.7219 H ( S ∣ X = b ) = − 0.05 ⋅ log 2 0.05 − 0.95 ⋅ log 2 0.95 = 0.2864 H ( S ∣ X ) = 0.6 ⋅ H ( S ∣ X = a ) + 0.4 ⋅ H ( S ∣ X = b ) = 0.5477 G a i n ( S , X ) = H ( S ) − H ( S ∣ X ) = 0.4523 H(S) = -0.5\cdot\log_20.5-0.5\cdot\log_20.5=1.0\\[2ex] H(S|X=a) = -0.8\cdot\log_20.8-0.2\cdot\log_20.2=0.7219 \\[2ex] H(S|X=b) = -0.05\cdot\log_20.05-0.95\cdot\log_20.95=0.2864 \\[2ex] H(S|X) = 0.6\cdot H(S|X=a) + 0.4\cdot H(S|X=b) = 0.5477 \\[2ex] Gain(S,X) = H(S) - H(S|X) = 0.4523 H(S)=−0.5⋅log20.5−0.5⋅log20.5=1.0H(S∣X=a)=−0.8⋅log20.8−0.2⋅log20.2=0.7219H(S∣X=b)=−0.05⋅log20.05−0.95⋅log20.95=0.2864H(S∣X)=0.6⋅H(S∣X=a)+0.4⋅H(S∣X=b)=0.5477Gain(S,X)=H(S)−H(S∣X)=0.4523
这里 G a i n ( S , X ) Gain(S,X) Gain(S,X)为 information Gain 。表示新增的数据属性的价值,越大越好。