K近邻算法

最新推荐文章于 2022-02-16 22:12:20 发布

离谱、

最新推荐文章于 2022-02-16 22:12:20 发布

阅读量545

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011582757/article/details/77264619

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

K近邻算法

三要素：距离度量、k值的选择、分类决策规则

距离度量：一般用欧式距离即可
k值的选择：采用交叉验证选择k值
分类决策规则
优点：
1.精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定
2.对于类域的交叉或者重叠较多的待分类样本集来说，KNN方法较其他方法更为合适（svm则不适用于这种分类问题）
3.在多分类问题上，KNN比svm效果要好
缺点：
1.计算复杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）
2.一个主要的不足：当样本中各类样本数量相差很大时，在判断一个新样本是哪一类时，该样本的K个邻居中大容量类的样本占多数
应用
1.分类
2.预测，比如机器学习实战书中的实例，预测海伦喜不喜欢某一个人，这其实也是一个分类问题
3.推荐

参考：
http://www.cnblogs.com/jtianwen2014/p/4249003.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K近邻算法

K近邻算法三要素：距离度量、k值的选择、分类决策规则距离度量：一般用欧式距离即可 k值的选择：采用交叉验证选择k值分类决策规则优点： 1.精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定 2.对于类域的交叉或者重叠较多的待分类样本集来说，KNN方法较其他方法更为合适（svm则不适用于这种分类问题） 3.在多分类问题上，KNN比s
复制链接

扫一扫

专栏目录

离谱、 CSDN认证博客专家 CSDN认证企业博客

码龄11年

31: 原创

10万+: 周排名

221万+: 总排名

11万+: 访问

: 等级

1158: 积分

18: 粉丝

41: 获赞

13: 评论

192: 收藏

私信

关注

热门文章

分类专栏

hive 2篇
pyspark 3篇
lightgbm 1篇
机器学习 16篇
java web 1篇
git 5篇
scala 1篇
算法 5篇

最新评论

pyspark中udf传参数
Dan.laran: 太好用了，谢谢大哥
利用pyspark评估lightgbm模型
h742206399: 麻烦问下，lightgbm支持缺失值，在模型预测阶段如何输入，类别特征如何输入？需要转成pandas dataframe么。这样效率很低，博主有好的解决方案么
pyspark中udf传参数
离谱、: 多谢指导，用你这种方法更简介些～
pyspark中udf传参数
西门郡丞: 其实没有必要使用闭包的，可以使用lit方法，该方法会表示按照其字面意思作为字符串参数传入udf。 [code=python] from pyspark.sql.functions import * from pyspark.sql.types import ArrayType, FloatType process_udf=spark.udf.register("process", process, FloatType) df =df.withColumn("area_norm", process_udf("area", lit(area_max), lit(area_min))) [/code]
EM算法--二维高斯混合模型(GMM)
丶努力就好。: 为什么用迭代值和Lmu等参数进行比较呢？不应该和前一次的迭代值相比较吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。