机器学习实战源码KNN

最新推荐文章于 2023-11-13 13:35:42 发布

wh357589873

最新推荐文章于 2023-11-13 13:35:42 发布

阅读量1.8k

点赞数

分类专栏：机器学习源码分析文章标签：机器学习源码 KNN

本文链接：https://blog.csdn.net/wh357589873/article/details/51445875

版权

本文根据《机器学习实战》一书，详细介绍了KNN算法的实现过程。首先，数据按特征和类别分隔，通过读取文件并处理成numpy数组。接着进行特征归一化，确保数值在0到1之间。然后，计算测试数据与训练数据的欧氏距离，选取最近的K个邻居。通过对这些邻居的类别计数，确定预测类别。最后，使用前numTestVecs个样本作为测试集，应用KNN算法进行预测。

摘要由CSDN通过智能技术生成

按照《机器学习实战》这书的内容来，稍微总结一下。

数据格式：

数据中的格式应该是特征1 特征2 特征3 ...类别，中间是tab键分割

1.读文件。

将文件中的数据，特征读到numpy array数组之中，类似于矩阵。特征读到list当中。先读，然后每一行进行处理，处理包括用\t进行分割，然后加到特征数组

特征加到特征的list当中。

#读文件，将文件读到array里。返回一个属性的array[m,n]和一个标签的list
def file2matrix(filename):
    fr=open(filename)
    arrayOLines=fr.readlines()
    numberOfLines=len(arrayOLines)
    returnMat=zeros((numberOfLines,3))
    classLabelVector=[]
    index=0
    for line in arrayOLines:
        line=line.strip()
        listFromLine=line.split('\t')
        returnMat[index,:]=listFromLine[0:3]
        classLabelVector.append(int(listFromLine[-1]))
        index+=1
    return returnMat,classLabelVector

2.数据归一化