KNN模型
KNN模型为有监督的学习算法,中文名为K最近邻算法。
k最近邻算法是数据挖掘中最简单的分类算法之一。
它属于“惰性”学习算法,其惰性在于不会从训练数据中学习判别函数(即模型),而是将模型的构建与未知数据的预测同时进行,靠记忆训练数据(仅仅保存训练样本)来完成预测任务。因此,在整个学习过程中,它付出的训练代价为零。
KNN既可以针对离散型变量做分类,又可以对连续型变量做回归预测。
核心思想
核心思想:比较已知y值的样本与未知y值样本的相似度,然后寻找最相似的k个样本用作未知样本的预测。
“最近”的度量就是样本之间的距离或相似性,如欧几里得距离(欧氏距离)、曼哈顿距离。
对于k最近邻分类,未知样本被分配到它的k个“最近邻”中的多数类中。
KNN模型的本质就是寻找k个最近样本,然后基于最近样本做“预测”。
对于离散型的因变量来说,从k个最近的已知类别样本中挑选出频率最高的类别用于未知样本的判断。
对于连续型的因变量来说,则是将k个最近的已知样本的均值用作未知样本的预测。
算法步骤
1.确定未知样本近邻的个数k值
2.根据某种度量样本间相似度的指标(如欧氏距离),将每一个未

最低0.47元/天 解锁文章
8715

被折叠的 条评论
为什么被折叠?



