K最近邻(k-nearest neighbours,KNN)算法:
是指给定一个训练数据集,将新输入的实例,在训练数据集中找到与该实例最邻近的K个实例(K表示指定的最近邻的数量,K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
关于K的经验规则是:如果有N位用户,应考虑sqrt(N)个邻居。
KNN算法用于分类和回归,需要考虑最近的邻居:
1、分类就是编组;
2、回归就是预测结果(如一个数字)。
特征提取:
1、将物品(如水果或用户)转换为一系列可比较的数字。
2、挑选合适的特征,必须考虑到各种需要考虑的因素。
3、能否挑选合适的特征事关KNN算法的成败。
计算相似度(余弦相似度更好):公式有很多,根据需求选择
1、勾股定理(毕达哥拉斯公式,√为平方根在计算机中的显示符号):计算两点的距离,√(a₁-a₂)²+(b₁-b₂)²。
2、余弦相似度(cosine similarity):是通过计算两个向量的夹角余弦值来评估他们的相似度。
3、朴素贝叶斯分类器(Naive Bayes classifier):用于获得目标概率值的方法。
例:影片推荐系统,值为喜爱度
黄一 赵二