[学习笔记]数据挖掘-week2

思维导图

离群点

d i s t a n c e k ( O ) distance_k(O) distancek(O)

选取 k k k 个离 O O O 点最近的点,以最远的一个点为半径画圆,表示 O O O点的距离。

距离相同的点算作一个点,即有可能最终得到的点多于 k k k

则两点之间的距离定义如下:

d i s t a n c e k ( A , B ) = m a x { d i s t a n c e k ( B ) , d ( A , B ) } distance_k(A,B)=max\{distance_k(B), d(A,B)\} distancek(A,B)=max{distancek(B),d(A,B)}

通常为 d ( A , B ) d(A,B) d(A,B),即欧式距离。对于每个点 A A A 定义如下度量。

l r d ( A ) = 1 / ( ∑ B ∈ N k ( A ) d i s t a n c e k ( A , B ) ∣ N k ( A ) ∣ ) lrd(A)=1/ \left( \frac{\sum\nolimits_{B\in N_k(A)}distance_k(A,B)}{\mid N_k(A)\mid}\right) lrd(A)=1/(Nk(A)BNk(A)distancek(A,B))

分母表示有多少个近邻,一般为 k k k,公式后半段表示点 A A A到其近邻点到平均距离。 l r d lrd lrd越大,表示与其近邻越近。则判断离群点到依据如下:

L O F k ( A ) = ∑ B ∈ N k ( A ) l r d ( B ) l r d ( A ) ∣ N k ( A ) ∣ LOF_k(A)=\frac {\sum\nolimits_{B\in N_k(A)} \frac{lrd(B)}{lrd(A)} } {\mid N_k(A) \mid} LOFk(A)=Nk(A)BNk(A)lrd(A)lrd(B)

最终得到的 L O F LOF LOF越大,是离群点的可能性越大。

不平衡数据集

下列公式用于度量处理该类数据时,分类器的好坏

G − m e a n = ( A c c + × A c c − ) 1 / 2 A c c + = T P T P + F N ; A c c − = T N T N + F P G-mean = \left(Acc^+ \times Acc^-\right)^{1/2}\\[2ex] Acc^+ = \frac{TP}{TP+FN}; \quad Acc^- = \frac{TN}{TN+FP} Gmean=(Acc+×Acc)1/2Acc+=TP+FNTP;Acc=TN+FPTN

该公式考虑分类器对两种类型数据各自的准确率。

T P + F N TP + FN TP+FN表示的是某类数据的实际个数,其分子表示正确预测该类数据的个数。另一个分式表示相同概念。

F − m e a s u r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l P r e c i s i o n = T P T P + F P ; R e c a l l = T P T P + F N F-measure = \frac{2\times Precision \times Recall}{Precision + Recall} \\[2ex] Precision=\frac{TP}{TP+FP}; \quad Recall=\frac{TP}{TP + FN} Fmeasure=Precision+Recall2×Precision×RecallPrecision=TP+FPTP;Recall=TP+FNTP

精确率表示预测值多于实际值,召回率表示预测值少于实际值。

标准化

Min-max normalization

v ′ = v − m i n m a x − m i n ( n e w _ m a x − n e w _ m i n ) + n e w _ m i n v' = \frac{v-min}{max-min}(new\_max-new\_min)+new\_min v=maxminvmin(new_maxnew_min)+new_min

其中最大最小值为原始数据中的值,新的最大最小值为映射空间上的值,通常为1,0。

用于有明确上下界的数据。无界数据的标准化如下。

Z-score normalization
v ′ = v − μ σ μ : m e a n , σ : s t a n d a r d d e v i a t i o n v' = \frac{v-\mu}{\sigma} \\[2ex] \mu:mean,\sigma:standard\quad deviation v=σvμμ:mean,σ:standarddeviation

数值越大,表示系统不确定性越高。

定义:
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ b p ( x i ) H(X)=-\sum_{i=1}^np(x_i)\log_bp(x_i) H(X)=i=1np(xi)logbp(xi)

应用实例,来源学堂在线
已知原始数据男女比例 1:1 ,抽烟与不抽烟为 0.4 与 0.6 。现新知到数据抽烟中男女为 0.95 与 0.05 。不抽烟中男女为 0.2 与 0.8 。

设X:{a="Non-Smoker;b=“smoker”}

H ( S ) = − 0.5 ⋅ log ⁡ 2 0.5 − 0.5 ⋅ log ⁡ 2 0.5 = 1.0 H ( S ∣ X = a ) = − 0.8 ⋅ log ⁡ 2 0.8 − 0.2 ⋅ log ⁡ 2 0.2 = 0.7219 H ( S ∣ X = b ) = − 0.05 ⋅ log ⁡ 2 0.05 − 0.95 ⋅ log ⁡ 2 0.95 = 0.2864 H ( S ∣ X ) = 0.6 ⋅ H ( S ∣ X = a ) + 0.4 ⋅ H ( S ∣ X = b ) = 0.5477 G a i n ( S , X ) = H ( S ) − H ( S ∣ X ) = 0.4523 H(S) = -0.5\cdot\log_20.5-0.5\cdot\log_20.5=1.0\\[2ex] H(S|X=a) = -0.8\cdot\log_20.8-0.2\cdot\log_20.2=0.7219 \\[2ex] H(S|X=b) = -0.05\cdot\log_20.05-0.95\cdot\log_20.95=0.2864 \\[2ex] H(S|X) = 0.6\cdot H(S|X=a) + 0.4\cdot H(S|X=b) = 0.5477 \\[2ex] Gain(S,X) = H(S) - H(S|X) = 0.4523 H(S)=0.5log20.50.5log20.5=1.0H(SX=a)=0.8log20.80.2log20.2=0.7219H(SX=b)=0.05log20.050.95log20.95=0.2864H(SX)=0.6H(SX=a)+0.4H(SX=b)=0.5477Gain(S,X)=H(S)H(SX)=0.4523

这里 G a i n ( S , X ) Gain(S,X) Gain(S,X)为 information Gain 。表示新增的数据属性的价值,越大越好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值