机器学习实战学习笔记（一）

最新推荐文章于 2024-07-12 19:06:42 发布

sakurakdx

最新推荐文章于 2024-07-12 19:06:42 发布

阅读量321

点赞数 1

文章标签： python 机器学习

本文链接：https://blog.csdn.net/k_phontom/article/details/106455987

版权

1.KNN算法描述

简单来说：k-近邻算法(knn)采用测量不同特征值之间的距离算法进行分类
优点：精度高、对异常值不敏感、无数据输入假定
缺点：计算复杂度高、空间复杂度高
适用数据范围：数值型和标称型

工作原理：存在一个训练样本集，样本集中每个数据都存在标签。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似（最近邻）的分类标签。一般来说，只选择样本数据集中前k个最相似的数据。通常k是不大于20的整数。

2.python3代码实现

# -- coding: utf-8 --
import numpy as np
import operator


def createDataSet():
    # 创建数据集
    group = np.array([[1.0, 1.1], [1.1, 1.0], [0, 0], [0, 0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels


def classify0(inX, dataSet, labels, k):
# inX为新输入数据，array类型 1*2
# dataSet为输入的训练样本集（不含标签），array类型 4*2
# labels为标签，array类型 1*4
# k为选择近邻数目
# 以上数据大小仅为此数据集大小
    dataSetSize = dataSet.shape[0]
    # array.shape[0] 提取array的行数 此处dataSetSize为4
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    # 以上部分计算各点之间欧式距离
    sortedDistIndicies = distances.argsort() 
    # argsort函数返回的是数组值从小到大的索引值
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        # 将按距离排列后的实例的标签提取出来
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        # 获得key为voteIlabel的value，进行加一操作
    # sortedClassCount = sorted(classCount.iteritems(),
                              # key=operator.itemgetter(1), reverse=True)
    # 原文代码如上，在python3环境下报错，改为如下代码可运行，具体含义见下文
    sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)  # true为降序
    return sortedClassCount[0][0]


if __name__ == "__main__":
    group, labels = createDataSet()
    a = classify0([0, 0], group, labels, 3)
    print(a)

因为有的函数不是很熟悉，所以冲浪去搜了一波用法，具体解释如下：

numpy.tile()： 把数组沿各个方向复制，例如上面的代码dataSetSize为4，可以写为

diffMat = np.tile(inX, (4, 1)) - dataSet

将inX（[0,0]）沿x轴复制1次，再沿y轴复制4次，得到的结果为

[[0 0]
[0 0]
[0 0]
[0 0]]

最后的diffMat结果是上面的结果和dataSet相减的结果，为

[[-1.  -1.1]
 [-1.1 -1. ]
 [ 0.   0. ]
 [ 0.  -0.1]]

这就是计算欧式距离的第一步，对所有点执行（x0-x1，y0-y1）操作，之后进行平方操作

sqDiffMat = diffMat ** 2

numpy.sum()： 以代码为例

sqDistances = sqDiffMat.sum(axis=1)

含义是将sqDiffMat[0][j],sqDiffMat[1][j]的对应项相加，即[1,1.21,0,0]+[1.21,1,0,0.01]=[2.21,2.21,0,0.01]
得出的结果是开平方之前的结果，即每个点与预测点距离的平方
之后进行开方操作得到欧氏距离

distances = sqDistances ** 0.5

sorted()和operator.itemgetter()： 原文代码

sortedClassCount = sorted(classCount.items(),
                              key=operator.itemgetter(1), reverse=True)

对classCount的每一个items对象进行降序排序，排序的依据是对象第一域的值
classCount经过计算为[('B', 2), ('A', 1)]，意为，距离前三近的店里面，标签为B的出现了两次，为A的出现了一次，items为('B', 2)和 ('A', 1)，按照第一域排序即按照2和1进行排序。

参考博客：
numpy.tile()：
https://blog.csdn.net/qq_18433441/article/details/54897250
numpy sum axis详解：
https://www.cnblogs.com/zhouyang209117/p/6512892.html
numpy中argsort函数用法：
https://blog.csdn.net/maoersong/article/details/21875705
Python 字典(Dictionary) get()方法：
https://www.runoob.com/python/att-dictionary-get.html
Python中的sorted函数以及operator.itemgetter函数：
https://www.cnblogs.com/100thMountain/p/4719503.html

sakurakdx

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战学习笔记（一）

1.KNN算法描述简单来说：k-近邻算法(knn)采用测量不同特征值之间的距离算法进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高适用数据范围：数值型和标称型工作原理：存在一个训练样本集，样本集中每个数据都存在标签。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似（最近邻）的分类标签。一般来说，只选择样本数据集中前k个最相似的数据。通常k是不大于20的整数。2.python3代码实现# -- codi
复制链接

扫一扫