k-近邻算法（k-Nearest Neighbor）

最新推荐文章于 2024-08-11 22:50:26 发布

西笑生

最新推荐文章于 2024-08-11 22:50:26 发布

阅读量454

点赞数

分类专栏：软件开发文章标签： k-近邻算法

本文链接：https://blog.csdn.net/flyfish1986/article/details/78175522

版权

软件开发专栏收录该内容

135 篇文章 8 订阅

订阅专栏

k-近邻算法（k-Nearest Neighbor）

flyfish 笔记

摘自书籍《机器学习实战》
k-近邻算法（kNN）工作原理
存在一个样本数据集合，称为训练样本集，并且每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似的的分类标签。由于样本集可以很大，我们选取前k个最相似数据，这既是k-近邻算法中k的出处，通常k是不大于20的整数。最后选择k个数据中出现次数最多的分类，作为新数据的分类。

python实现

from numpy import *  
import operator  

def createDataSet():  
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])  
    labels = ['A','A','B','B']  
    return group,labels  

def classify(inX,dataSet,labels,k):  
    dataSetSize = dataSet.shape[0] #labels的数目 

    #欧氏距离  Euclidean distance
    diffMat = tile(inX,(dataSetSize,1)) - dataSet  
    sqDiffMat = diffMat**2  
    sqDistances = sqDiffMat.sum(axis = 1)  
    distances = sqDistances**0.5  

    #从小到大排序的序号
    sortedDistIndicies = distances.argsort()  
    classCount = {}  
    for i in range(k):  
        voteIlabel = labels[sortedDistIndicies[i]]  
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1  

    #按value从大到小排序   
    sortedClassCount = sorted(classCount.items(),  
                              key=operator.itemgetter(1),reverse=True) 
    print(sortedClassCount)
    #输出最大value对应的key
    return sortedClassCount[0][0] 

group,labels=createDataSet()

print(classify([1.0,1.5],group,labels,3))

对代码的解释
欧几里得度量
欧氏距离
Euclidean distance
Euclidean metric

二维

$d=\sqrt{(x_0-y_0)^2+(x_1-y_1)^2}$

三维

$d=\sqrt{(x_0-y_0)^2+(x_1-y_1)^2+(z_0-z_1)^2}$

n维

$d(p,q) = d(q,p)= \sqrt{(q_1-p_1)^2 + (q_2-p_2)^2 + \cdots + (q_n-p_n)^2} = \sqrt{\sum_{i=1}^n (q_i-p_i)^2}.$

numpy的tile的用法

import numpy as np
print(np.tile([7,8],3))
print(np.tile([7,8],(3,1)))
print(np.tile([7,8],(3,2)))

output:
[7 8 7 8 7 8]

output:
[[7 8]
[7 8]
[7 8]]

output:
[[7 8 7 8]
[7 8 7 8]
[7 8 7 8]]

numpy的argsort的用法

import numpy as np
x=np.array([1,4,3,2])
y=x.argsort()
print(x,y)

output:

[1 4 3 2] [0 3 2 1]
将x中的元素从小到大排列，提取其对应的索引，将索引输出到y
x并未发送变化

classify(inX,dataSet,labels,k)
inX 输入没有标签的新数据
dataSet 样本数据集合/训练样本集
labels 训练样本集对应的分类标签
k 选取最相似(最近邻)的样本数目

西笑生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录