本笔记仅记录《统计学习方法》中各个章节算法|模型的简要概述,比较泛泛而谈,用于应对夏令营面试可能会问的一些问题,不记录证明过程和详细的算法流程。大佬可自行绕路。
更多章节内容请参阅:李航《统计学习方法》学习笔记-CSDN博客
目录
K近邻法概述:
一种基本分类与回归方法。大致思想就是已经获得了一个标签打好的训练数据集,分类时,对新的实例,根据其K个最近邻的训练实例的类别,通过多数表决等方式进行预测,也即没有显示的学习过程。
K近邻算法的三个基本要素:
- K值的选择
- 距离度量
- 分类决策规则
算法流程:
三个基本要素详解:
K近邻算法中,当三个基本要素全部确定之后,那么对于任何一个新的输入实例,它所属的类别便唯一确定。
距离度量:
K近邻算法认为特征空间中两个实例点的距离是两个实例点相似程度的反映。
Lp距离:
p值的不同对应不同的距离度量方式,主要包括欧式距离和曼哈顿距离。
K值的选择:
K值的减小会使模型变得复杂,因为会造成更少的点对预测样本的类别产生影响,容易发生过拟合;若是过大则会导致欠拟合。因此一般选用一个适中的较小的K值,通常采用交叉验证的方式来进行选取。
分类决策规则:
往往是多数表决。
kd树:
kd树中的k是指k维,不是k类。
如果对数据进行快速K近邻搜索非常重要。最简单的办法是线性扫描,但是时间开销较大,而采用kd树这种特殊的结构存储训练数据可以减少计算距离的次数。
其基本思想是依次划分子区域,通常选择训练实例点在选定坐标轴上的中位数作为切分点,这样得到的kd树是平衡的,但是需要注意平衡的kd树在搜索时的效率未必时最优的。
当空间维数远小于训练实例数时,非常适合采用kd树进行k近邻搜索;担当两者相近时,它的效率会迅速下降,几乎接近线性扫描。