[学习笔记]数据挖掘-week2

最新推荐文章于 2024-07-24 16:19:34 发布

午夜涂猪男

最新推荐文章于 2024-07-24 16:19:34 发布

阅读量146

点赞数

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19078137/article/details/120486751

版权

数据挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

思维导图

离群点

$distance_k(O)$

选取 $k$ 个离 $O$ 点最近的点，以最远的一个点为半径画圆，表示 $O$ 点的距离。

距离相同的点算作一个点，即有可能最终得到的点多于 $k$ 。

则两点之间的距离定义如下：

$distance_k(A,B)=max\{distance_k(B), d(A,B)\}$

通常为 $d (A, B)$ ，即欧式距离。对于每个点 $A$ 定义如下度量。

$\left( \frac{\sum\nolimits_{B\in N_k(A)}distance_k(A,B)}{\mid N_k(A)\mid}\right)$

分母表示有多少个近邻，一般为 $k$ ，公式后半段表示点 $A$ 到其近邻点到平均距离。 $l r d$ 越大，表示与其近邻越近。则判断离群点到依据如下：

$LOF_k(A)=\frac {\sum\nolimits_{B\in N_k(A)} \frac{lrd(B)}{lrd(A)} } {\mid N_k(A) \mid}$

最终得到的 $L O F$ 越大，是离群点的可能性越大。

不平衡数据集

下列公式用于度量处理该类数据时，分类器的好坏

$\left(Acc^+ \times Acc^-\right)^{1/2}\\[2ex] Acc^+ = \frac{TP}{TP+FN}; \quad Acc^- = \frac{TN}{TN+FP}$

该公式考虑分类器对两种类型数据各自的准确率。

$T P + F N$ 表示的是某类数据的实际个数，其分子表示正确预测该类数据的个数。另一个分式表示相同概念。

$\frac{2\times Precision \times Recall}{Precision + Recall} \\[2ex] Precision=\frac{TP}{TP+FP}; \quad Recall=\frac{TP}{TP + FN}$

精确率表示预测值多于实际值，召回率表示预测值少于实际值。

标准化

Min-max normalization

$\frac{v-min}{max-min}(new\_max-new\_min)+new\_min$

其中最大最小值为原始数据中的值，新的最大最小值为映射空间上的值，通常为1，0。

用于有明确上下界的数据。无界数据的标准化如下。

Z-score normalization
$\frac{v-\mu}{\sigma} \\[2ex] \mu:mean,\sigma:standard\quad deviation$

熵

数值越大，表示系统不确定性越高。

定义：
$H(X)=-\sum_{i=1}^np(x_i)\log_bp(x_i)$

应用实例，来源学堂在线。
已知原始数据男女比例 1:1 ，抽烟与不抽烟为 0.4 与 0.6 。现新知到数据抽烟中男女为 0.95 与 0.05 。不抽烟中男女为 0.2 与 0.8 。

设X:{a="Non-Smoker;b=“smoker”}

$-0.5\cdot\log_20.5-0.5\cdot\log_20.5=1.0\\[2ex] H(S|X=a) = -0.8\cdot\log_20.8-0.2\cdot\log_20.2=0.7219 \\[2ex] H(S|X=b) = -0.05\cdot\log_20.05-0.95\cdot\log_20.95=0.2864 \\[2ex] H(S|X) = 0.6\cdot H(S|X=a) + 0.4\cdot H(S|X=b) = 0.5477 \\[2ex] Gain(S,X) = H(S) - H(S|X) = 0.4523$

这里 $G a i n (S, X)$ 为 information Gain 。表示新增的数据属性的价值，越大越好。

午夜涂猪男

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
[学习笔记]数据挖掘-week2

[学习笔记]数据挖掘-week2离群点distancek(O)distance_k(O)distancek(O)选取 kkk 个离 OOO 点最近的点，以最远的一个点为半径画圆，表示 OOO点的距离。距离相同的点算作一个点，即有可能最终得到的点多于kkk 。则两点之间的距离定义如下：distancek(A,B)=maxdistancek(B),d(A,B) distance_k(A,B)=max{distance_k(B), d(A,B)} distancek(A,B)=maxdist
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。