h i t 2015 s p r i n g 晨凫追风 \frac{hit2015spring}{晨凫追风} 晨凫追风hit2015spring
欢迎关注我的博客:http://blog.csdn.NET/hit2015spring
k近邻算法
是一种常用的监督学习的方法:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于k个邻居的信息来进行预测。通常:
分类任务中用投票,选择k个样本中出现最多的类别标记作为预测结果
回归任务中:平均法
还可以基于距离的远近进行加权平均或者加权投票,距离越近权重越大
没有显示的训练过程,训练时间开销为0,是一种懒惰学习
分类的结果与k的选择和距离计算方式的选择有关系
上图可以看出二维空间中,距离的计算方式不同,包含的区域也是不相同的。故会影响结果
k值得选择也会对结果产生影响,k值小的话,相当于用较小的邻域中的训练实例进行预测,学习的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用,但是估计误差会增大,意味着会产生过拟合。
kd树的构建
实现k近邻方法时,面临一个计算速度的挑战问题,当特征空间的维数非常大以及训练数据非常大的时候,我们优化这个搜索的方法就显得尤为重要了
一般方法:最简单的是实现一个线性扫描,就是计算输入的实例与每一个训练实例之间的距离,训练集很大的时候,计算会耗时很长,于是就出现了kd树的这种方法。
构造kd树的数学描述比较难懂:
输入的是 k k k维空间数据集 T = { x 1 , x 2 , ⋯ , x N } T=\{x_1,x_2,\cdots,x_N\} T={ x1,x