作者:非妃是公主
专栏:《机器学习》
个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩
专栏地址
专栏系列文章
最近邻学习基础知识
根据分类的定义可知:分类包含两个阶段:训练阶段和工作阶段。
积极学习
到目前为止,我们前面介绍的所有机器学习技术都有显式的训练过程,都是在训练阶段就对训练样本进行学习处理,构建起分类模型,这类机器学习技术统称为“积极学习” (eager learning)。
消极学习
这一章我们将要介绍的最近邻学习,没有显式的训练过程,在训练阶段只是把训练样本保存起来,建模工作延迟到工作阶段才进行处理,这类机器学习技术统称为“消极学习”(lazy learning)
最近邻学习
最近邻学习不是在整个样本空间上一次性地估计目标函数,而是针对每个待测样本作出局部的目标函数逼近。当目标函数很复杂,但它可以用不太复杂的局部函数来逼近时,这样做有非常明显的优势。
最近邻学习可以为不同的待测样本构建起不同的目标函数逼近,因此相比于那些积极的学习技术,最近邻学习往往具有较高的分类性能。
最近邻学习基本思想
其实就是找到离待测样本最接近的k个样本,并统计他们的label,比如投票,哪个票数多就选哪个label作为样本的label。
最近邻学习常见问题
近邻索引为题
在决策树的叶子结点上进行K-近邻索引
维度灾害问题
两种解决办法,属性加权和属性选择
邻域大小问题
后验概率问题
计算效率问题
归纳偏置问题
对不同属性增加权值来实现。