《机器学习实战》笔记（一）——k-近邻算法（一）

最新推荐文章于 2021-10-14 01:13:04 发布

咕噜咕噜冰阔落

最新推荐文章于 2021-10-14 01:13:04 发布

阅读量464

点赞数

文章标签：机器学习实战 k-近邻算法电影分类实战 python3

本文链接：https://blog.csdn.net/weixin_42469843/article/details/86592592

版权

这个寒假一直在学习《机器学习实战》这本书，及时记录下自己的学习成果，整理学习思路。在学习过程中，我极大极大极大地（重要事情说三遍）程度上参考的是Jack-Cui前辈的机器学习实战笔记，也特别感谢Jack-Cui前辈把宝贵的学习经验分享给想我一样的广大菜鸡萌新。以下是他的博客链接:https://blog.csdn.net/c406495762.除此之外，学习机器学习实战除了《机器学习实战》这本书外，我感觉斯坦福大学吴恩达老师的课程也是很有帮助，打好基础才重要，网易公开课或者网易云课堂上都有吴老师的免费视频可供学习；还有的就是清华大学出版的“西瓜书”，这本书得啃的下来才行，然而明知道书里面蕴藏着巨大宝藏，但太笨太懒了...哭唧唧...以上都是个人拙见，如果大家有更好的书更好的学习资料希望分享一下，一起学习冲鸭！再说一下，这里就是把自己学习思路整理一下，已经会的地方可能不会太仔细说了，感觉重点的地方会仔细说一下。开启笔记之旅吧。（刚开始打算把文章私密的，因为仅仅就是记录自己的学习过程，提醒自己不要忘记知识点，但后来还是分享出来吧）

k-近邻算法（一）：电影的分类（动作片与爱情片）

首先还是大致说一下k-近邻算法的原理吧。书上原文：它的工作原理是：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

我的理解就是一个类别你想要识别这个类别的话，肯定会根据一些属性或者是特征来辨别的。肯定不能无根据的乱加猜测。下面的例子就能说明这一点：

这里的电影类别就是由两个特征来判别的，那就是接吻和打斗的字数。训练集会有很多个类似这样的样本，然后测试集中的样本在对应属性上进行欧式几何距离的运算。就像我们求两点之间距离公式一样。以上图片是二维，我们实际上会遇到n维，也是同样的道理，运算测试集样本与每个训练集样本的距离，运算完再统计，统计完后只要距离最短的前k位的训练集样本点，然后前k位的训练集样本点出现最多的标签就认为是该测试集样本的标签了。

因为博文仅仅是在整理自己的学习思路，这里如果有稍微不明白的同学可以参考Jack-Cui前辈的博文，前辈真的很厉害。以下是博文的链接：https://blog.csdn.net/c406495762/article/details/75172850/。当然啦也可以看书。都很简单的。

好。到这里k-近邻算法的原理就算复习完了。以下进入第一个实战例子，电影的分类。先上代码：

import numpy as np
import operator

def creatDataSet():
    group=np.array([[1,101],[5,89],[108,5],[115,8]])
    labels=['爱情片','爱情片','动作片','动作片']
    return group,labels

def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]
    #shape[0]返回的是第二维长度，也就是行数，
    #shape[1]返回的是第一维长度，也就是列数；
    #dataSet就是group，为4行
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    #https://www.cnblogs.com/zibu1234/p/4210521.html
    #tile用法是tile(A,r)，以上网址解释的很清楚，进行维度扩展
    #对inX也就是[101,20]进行（4，1）的拓展，然后与dataSet相应项相减
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    #关于.sum（）函数的用法：
    # sum()是对多维数组里面元素的简单相加,
    # sum(axis=0)是对多维数组的列进行相加得到一个新的矩阵
    # sum(axis=1)是对多维数组的行进行相加得到一个新的矩阵
    distances=sqDistances**0.5
    sortedDisIncices=distances.argsort()
    #关于argsort（）函数，它会遍历distances数组，按从小到大顺序排列
    #但不会返回数组里面的原来的值，而是返回数组里面值的位置顺序，也就是索引值
    classCount={}
    for i in range(k):
        voteIlabel=labels[sortedDisIncices[i]]#这个语句的作用是取出前k个（距离）的标签
        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
        #关于此函数classCount.get()+1的用法，记录爱情片动作片这两个标签出现的次数
        #https://blog.csdn.net/weixin_38705903/article/details/79231551博文介绍的很清楚
        #在此强调一下字典在python中的“特殊的感觉”就是学长对我说的感觉，嗯，能懂吧？
    sortedClassCount=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #关于items()函数，以列表返回可遍历的(键, 值) 元组数组，我觉得是可以使字典‘活’过来，可以对其进行一系列操作了
    #reverse--排序规则,reverse=True降序,reverse=False升序(默认)
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    return sortedClassCount[0][0]#返回出现次数最高的那个标签

if __name__=='__main__':
    group,labels=creatDataSet()
    test=[101,20]
    test_class=classify0(test,group,labels,3)
    print(test_class)

申明一下，代码《机器学习实战》书上有，上面分享的博文上也有，以上是我对代码的注释解析。嗯，开始分析代码。

代码分为三个部分，一是creatDataSet()，二是重点的classify0(inX,dataSet,labels,k)函数，第三个是类似于C/C++中的主函数：if __name__=='__main__'。

首先简要分析三个代码的主要作用。

creatDataSet()主要的是制造训练集，把训练集输进去；classify0(inX,dataSet,labels,k)就是最主要的分类；第三个我认为是统筹把握具体代码的步骤。creatDataSet()和if __name__=='__main__'部分很简单，在此不做说明，可以参考以上链接博文。
classify0(inX,dataSet,labels,k)部分是按照k-近邻算法这种算法的精髓来设计的。肯定是要计算训练集样本点与测试集样本点的距离，计算距离肯定要有相应属性的作差，再平方。把所有的相应属性差值平方作和，在开根号，就是样本点之间的距离了。

看程序，dataSetSize=dataSet.shape[0]语句返回的是训练集的行数，在这里返回的是4。这个语句的作用在后面体现出来了。要计算距离的话，本身就是一对多的关系：一个测试样本点，对应着很多个训练集样本点。在这里有四个训练集样本点，分别是[1,101],[5,89],[108,5],[115,8]。dataSetSize=dataSet.shape[0]返回的是行数，也就是返回了有多少个训练集样本。比如在这里，返回了有4个训练集样本，然后用np.tile(inX,(dataSetSize,1))对测试集[101,20]进行（4,1）的扩展，变成了[[101,20],[101,20],[101,20],[101,20]]形式，这样测试集样本与训练集样本形成了4对4了。

[1,101],[5,89],[108,5],[115,8]与[[101,20],[101,20],[101,20],[101,20]]计算起来的话直接利用数组列表与数组列表之间的运算法则，会很方便了。以上是我的理解。

diffMat=np.tile(inX,(dataSetSize,1))-dataSet #这句话是在相应项作差
sqDiffMat=diffMat**2 #这句话是在求平方
sqDistances=sqDiffMat.sum(axis=1) #这句话是在求所有项的平方和
distances=sqDistances**0.5 #这句话是在求距离（总体开方）

接下来就是统计所有的距离，因为是要计算一个测试样本点与所有的训练集样本的距离。找出前k的训练集样本点，再记录这k位训练集样本相应的标签，是爱情片还是动作片。后面的代码就是在做这个事情，返回出现次数最多的标签，并以此作为测试集的标签啦。

最终结果如下所示：

到此，电影分类的算法及其程序实现整理完了...效率好低...

欢迎交流学习！

咕噜咕噜冰阔落

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》笔记（一）——k-近邻算法（一）

这个寒假一直在学习《机器学习实战》这本书，及时记录下自己的学习成果，整理学习思路。在学习过程中，我极大极大极大地（重要事情说三遍）程度上参考的是Jack-Cui前辈的机器学习实战笔记，也特别感谢Jack-Cui前辈把宝贵的学习经验分享给想我一样的广大菜鸡萌新。以下是他的博客链接:https://blog.csdn.net/c406495762.除此之外，学习机器学习实战除了《机器学...
复制链接

扫一扫