Python之K最近邻算法

K最近邻(KNN)算法是一种基于实例的学习方法,它利用训练数据集中与新实例最邻近的K个样本进行分类或回归。K的选择通常为训练数据集大小的平方根。KNN在分类时依据多数表决原则,回归时则通过K个邻居的平均值来预测结果。特征提取在KNN中至关重要,合适的特征可以提高算法的准确性。计算相似度时,可以使用余弦相似度或欧氏距离等方法。例如,在影片推荐系统中,KNN可以预测用户的喜爱度。
摘要由CSDN通过智能技术生成

K最近邻(k-nearest neighbours,KNN)算法:
是指给定一个训练数据集,将新输入的实例,在训练数据集中找到与该实例最邻近的K个实例(K表示指定的最近邻的数量,K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。

关于K的经验规则是:如果有N位用户,应考虑sqrt(N)个邻居。

KNN算法用于分类和回归,需要考虑最近的邻居:
1、分类就是编组;
2、回归就是预测结果(如一个数字)。

特征提取:
1、将物品(如水果或用户)转换为一系列可比较的数字。
2、挑选合适的特征,必须考虑到各种需要考虑的因素。
3、能否挑选合适的特征事关KNN算法的成败。

计算相似度(余弦相似度更好):公式有很多,根据需求选择
1、勾股定理(毕达哥拉斯公式,√为平方根在计算机中的显示符号):计算两点的距离,√(a₁-a₂)²+(b₁-b₂)²。
2、余弦相似度(cosine similarity):是通过计算两个向量的夹角余弦值来评估他们的相似度。
3、朴素贝叶斯分类器(Naive Bayes classifier):用于获得目标概率值的方法。

例:影片推荐系统,值为喜爱度

			黄一		赵二
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值