第三章 k近邻法
3.1 k近邻算法
对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
3.1 k近邻模型
三个基本要素:距离度量、k值的选择、分类决策规则
没有显式的学习过程。
3.2.1、距离度量:
Lp距离,由P的值确定。
3.2.2、k值的选择:
k值减小,模型变复杂,容易过拟合。
k值增大,减少学习的估计误差,近似误差会增大。
k值一般选择较小,用交叉验证法来选取最优的k值。
3.3 kd树
为提高k临近搜索的效率,使用特殊结构存储训练数据,以减少计算距离的次数。
kd树是二叉树。
平衡的kd树未必是最优的。
![kd树的建立流程](https://img-blog.csdnimg.cn/328dbccad7764453b97a43e64ddc6cca.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAY2hhbmdlcWY=,size_19,color_FFFFFF,t_70,g_se,x_16)