【ML】K近邻算法(1)

最新推荐文章于 2021-09-28 09:02:29 发布

Quant0xff

最新推荐文章于 2021-09-28 09:02:29 发布

阅读量291

点赞数

分类专栏： # ai_algorithm # 机器学习模型算法文章标签： kd树 k近邻算法机器学习算法

本文链接：https://blog.csdn.net/qq_18822147/article/details/107702627

版权

机器学习同时被 3 个专栏收录

34 篇文章 3 订阅

订阅专栏

ai_algorithm

30 篇文章 0 订阅

订阅专栏

模型算法

15 篇文章 1 订阅

订阅专栏

算法流程

$k$ 近邻算法的思路为：在训练数据中找到与该实例最邻近的 $k$ 个实例，这 $k$ 个实例的多数属于某个类，就将该输入分为这个类中. 可以发现 $k$ 近邻算法没有显示的学习过程.

步骤

对于训练集
$T=\{(x_1, y_1), (x_2 y_2),\dots, (x_N, y_N)\}$
其中 $x_i\subset \mathcal{X}\subset \mathbb{R}^n$ 表示实例的特征向量， $y_i\subset \mathcal{Y}=\{c_1, c_2, \dots, c_k\}$ 表示实例的类别.

设置距离函数，根据距离函数找到训练集中与实例 $x$ 最相近的 $k$ 个点，涵盖这 $k$ 个点的邻域为 $N_k(x)$ .
在 $N_k(x)$ 中根据分类决策规则决定 $x$ 的类别为 $y$ .
$y=\argmax\limits_{c_j}\sum\limits_{x_i\in N_k(x)}\mathcal{I}(y_i=c_j)$

模型

$k$ 近邻算法实际上对应于特征空间的划分，模型的三个基本要素：距离度量， $k$ 值选择和分类规则的确定.
在特征空间中，对于每个训练实例点 $x_i$ ，距离该点比其他点更近的所有点组成一个区域为单元(cell)，每个单元的标记是确定的.

距离

设特征空间 $\mathcal{X}$ 是 $n$ 维实数向量空间 $\mathbb{R}^n$ ， $x_i, x_j \in \mathcal{X}$ 且 $x_i=(x_i^{(1)}, x_i^{(2)}, \dots, x_i^{(n)})^T$ ，距离 $L_p$ 的定义为
$L_p(x_i, x_j)=(\sum_{l=1}^n|x_i^{(l)}-x_j^{(l)}|^p)^{\frac{1}{p}}$
当 $p = 1$ 时，称为曼哈顿距离
当 $p = 2$ 时，称为欧氏距离
当 $p=\infty$ 时，是各个坐标距离的最大值 $\max\limits_l|x_i^{(l)}-x_j^{(l)}|$

k值选择

选择较小的 $k$ 值，近似误差减小，但是估计误差增大，容易发生过拟合.
选择较大的 $k$ 值，近似误差增大，估计误差减小，模型较为简单，忽略了很多有用的信息

一般取较小 $k$ 值，再用交叉验证方法找出最优 $k$ 值.

分类决策规则

$k$ 近邻算法中分类决策规则一般是多数表决(majority voting rule)，在0-1分类损失函数下，分类函数为
$f:\mathbb{R}^n\to \{c_1, c_2, \dots, c_K\}$
误分类概率为
$P(Y\neq f(X))=1-P(Y=f(X))$
对于给定实例 $x\in \mathcal{X}$ ，其最近邻的 $k$ 个训练实例点构成集合 $N_k(x)$ ，如果涵盖 $N_k(x)$ 的区域类别是 $c_j$ ，那么误分类率是
$\frac{1}{k}\sum\limits_{x_i\in N_k(x)}\mathcal{I}(y_i\neq c_j)=1-\frac{1}{k}\sum\limits_{x_i\in N_k(x)}\mathcal{I}(y_i=c_j)$
可以发现，其作用等价于ERM.

K-Dimensional树

$k d$ 树是一种对 $k$ 维空间中的实例点进行存储以便对其进行快速检索的树形数据结构，其构造过程是不断用垂直于坐标轴的超平面将 $k$ 维空间切分，构成一系列 $k$ 维超矩形区域.

算法

输入 $k$ 维空间数据集 $T=\{x_1, x_2, \dots, x_N\}$ ，其中 $x_i=(x_i^{(1)}, x_i^{(2)}, \dots, x_i^{(k)})^T$

构造根节点，对应于包含 $T$ 的 $k$ 维空间的超矩形区域. 选择 $x^{(1)}$ 作为坐标轴，以 $T$ 中所有实例的 $x^{(1)}$ 坐标的中位数为切分点，将根节点对应的超矩形区域切分为两个子区域，根节点生成深度为1的左右子节点：左子节点对应于坐标 $x^{(1)}$ 小于切分点的子区域，右子节点对应于坐标 $x^{(1)}$ 大于切分点的子区域.
对深度为 $j$ 的节点，选择 $x^{(l)}$ 为切分坐标轴， $l=j(\bmod{k})+1$
直到两个子区域没有实例存在时停止.

案例

给定二维空间数据集
$T=\{(2,3), (5, 4), (9, 6), (4, 7), (8, 1), (7, 2)\}$
构造平衡 $k d$ 树.

解析

和线段树的方法类似，采用轮转划分法，直到所有集合都不能继续划分，得到 $k d$ 树结构如下

代码

#include<cstdio>
#include<cstring>
#include<iostream>

using namespace std;
const int N=50005;
const int K=5;
int id, n, k, c;

struct PO{
	int x[K];
	bool operator<(const po &a) const{return x[id]<a.id;}
}b[N];

struct TR{
	po e;
	int o; // 当前划分的维度
}tr[N<<2];

void build(int l, int r, int d, int o){
	if(l>=r) return;
	int mid=l+r>>1;
	int lc=d<<1;
	int rc=d<<1|1;
	id=o;
	nth_element(b+l, b+mid, b+r); // 使第k大的元素处于第k的位置
	tr[d].e=b[mid];
	tr[d].o=o;
	build(l, mid, lc, (o+1)%k); // 递归左侧划分
	build(mid+1, r, rc, (o+1)%k); // 递归右侧划分
}