机器学习——knn算法

初步了解knn算法

knn算法是一种最为基本的分类和回归方法,是一种监督学习方法里的常用方法,其全称为K-Nearest Neighbor(k个距离你最近的邻居),也就是其根据你距离最近的几个训练实例来推测判断你的类别。

knn算法的基本流程

1.计算新实例与训练集中每个实例之间的距离

其计算每个距离的方式通常使用欧几里得距离,公式如下:

同样若采取曼哈顿距离等方式也是可行的

2.按照距离递减顺序,选择出距离最近的k个邻居

在挑选k值的时候,若k值过大,则可能欠拟合,若k值过小,则可能受到样本特例的影响,造成过拟合。

故我们可通过交叉验证不断尝试最优的K值,从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。

还可以根据经验选择,比如经常性的做某一数据集,知道他的K大概是多少比较好

3.根据这k个邻居的类别进行投票,如果某个类别的票数最多,则新实例也可归类为该类别。

knn算法的优缺点

KNN算法优点

简单易用,相比其他算法,KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
模型训练时间快,上面说到KNN算法是惰性的,这里也就不再过多讲述。
预测效果好。
对异常值不敏感
KNN算法缺点

对内存要求较高,因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感


 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值