KNN

最新推荐文章于 2024-03-29 22:18:52 发布

flashTianjiao

最新推荐文章于 2024-03-29 22:18:52 发布

阅读量425

点赞数

分类专栏：机器学习文章标签：数据

本文链接：https://blog.csdn.net/flashtianjiao/article/details/74852413

版权

5 篇文章 0 订阅

订阅专栏

KNN是一种基本分类和回归方法。输入为实例的特征向量，输出为实例的类别。

输入训练数据集

T = {(x 1, y 1), (x 2, y 2), . . ., (x n, y n)}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$
其中，

xi∈Rn,yi∈{c1,c2,...,cn},i=1,2,...,N $x_i\in R^n,y_i\in \{c_1, c_2, ..., c_n\},i=1,2,{...},N$
输出：实例x所属的类y。
(1)根据给定的距离度量，在T中找出与x最近邻的k个点，涵盖k个点的x的邻域记作

Nk(x) $N_k(x)$ ;
(2)在

Nk(x) $N_k(x)$ 中根据分类决策规则决定x的类别y:

y = a r g m a x c j \sum x i \in N k (x) I (y i = c j) ， i = 1, 2, . . ., N; j = 1, 2, . . ., k

$y=argmax_{c_j} \sum_{x_i\in N_k(x)}I(y_i = c_j)， i=1,2,...,N;j=1,2,...,k$

I $I$ 为指示函数，

yi=cj，I=1，否则I=0 $y_i=c_j，I=1，否则I=0$ 。

KNN中当训练集、距离度量、k值和分类决策规则确定后，输出类别唯一确定。

kd数是一种对k维空间的实例进行存储以便对其进行快速检索的树状数据结构。

-优点：
1. 思想简单，理论成熟，既可以用来做分类也可以用来做回归；
2. 可用于非线性分类；
3. 训练时间复杂度为O(n)；
4. 准确度高，对数据没有假设，对outlier不敏感；

-缺点：
1. 计算量大；
2. 样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；
3. 需要大量的内存；

关注