《机器学习实战》读书笔记（一） kNN算法

最新推荐文章于 2024-09-21 11:20:57 发布

fullstack

最新推荐文章于 2024-09-21 11:20:57 发布

阅读量470

点赞数 1

分类专栏：机器学习文章标签：机器学习读书笔记数据挖掘算法数据

本文链接：https://blog.csdn.net/lzy_89610/article/details/44221415

版权

机器学习专栏收录该内容

0 篇文章 0 订阅

订阅专栏

去年看了一遍《机器学习实战》一书，由于没有做笔记，导致很多东西都忘了，回头来看，又有很多东西要重新理解，很费事。现在把书中的脉络整理出来，方便自己记忆，也供各位在机器学习和数据挖掘方向刚入门的同学参考。

基本原理：

计算目标点到数据集中所有点的距离，得到距离最近的前k个点的类型，该分类中数量居多的那种类型即为目标点的类型

具体思路：

分类功能是由classify0(inX, dataSet, labels, k)实现的。在该函数中，

intX代表目标点

dataSet代表数据集

labels代表数据集类型标签

k为用户指定的用来判断类型的前k个最近的点

代码：

def classify0(inX, dataSet, labels, k):
    #计算距离，得到的distances为一个一维数组，表示inX到dataSet中每个点的距离
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    #按照距离值进行排序，得到的sortedDistIndicies是distances排序后的下标值。
    sortedDistIndicies = distances.argsort()
    #迭代前k个值，计算每个种类的票选值
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        #如果值为voteIlabel，则该值的票选值+1
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    #返回算出票选值后的数组中的赢家
    return sortedClassCount[0][0]