【大数据分析与挖掘】KNN模型、朴素贝叶斯模型、SVM支持向量机模型学习笔记

KNN模型

KNN模型为有监督的学习算法,中文名为K最近邻算法。
k最近邻算法是数据挖掘中最简单的分类算法之一。

它属于“惰性”学习算法,其惰性在于不会从训练数据中学习判别函数(即模型),而是将模型的构建与未知数据的预测同时进行,靠记忆训练数据(仅仅保存训练样本)来完成预测任务。因此,在整个学习过程中,它付出的训练代价为零

KNN既可以针对离散型变量做分类,又可以对连续型变量做回归预测

核心思想

核心思想:比较已知y值的样本与未知y值样本的相似度,然后寻找最相似的k个样本用作未知样本的预测。

“最近”的度量就是样本之间的距离或相似性,如欧几里得距离(欧氏距离)曼哈顿距离
对于k最近邻分类,未知样本被分配到它的k个“最近邻”中的多数类中。

KNN模型的本质就是寻找k个最近样本,然后基于最近样本做“预测”。
对于离散型的因变量来说,从k个最近的已知类别样本中挑选出频率最高的类别用于未知样本的判断。
对于连续型的因变量来说,则是将k个最近的已知样本的均值用作未知样本的预测。

算法步骤

1.确定未知样本近邻的个数k值
2.根据某种度量样本间相似度的指标(如欧氏距离),将每一个未

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值