机器学习02——K近邻KNN算法_数据准备

最新推荐文章于 2024-04-24 20:22:44 发布

小满丫

最新推荐文章于 2024-04-24 20:22:44 发布

阅读量196

点赞数

分类专栏： python机器学习

本文链接：https://blog.csdn.net/weixin_42512266/article/details/90041362

版权

python机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一步：准备输入数据（数据预处理）
①新建一个kNN函数文件，为后续程序去调用使用它。

from numpy import *
import operator

def creatDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])  # 4*2 四行两列的数组
    labels = ['A', 'A', 'B', 'B']  # 一个行向量 四列1*4
    return group, labels

labels包含的元素个数等于group矩阵行数。

在这里插入图片描述
**
②在kNN里定义一个分类函数：classify0

# -*- coding:utf-8 -*-
from numpy import *
import operator


def creatDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])  # 4*2 四行两列的数组
    labels = ['A', 'A', 'B', 'B']  # 一个行向量 四列1*4
    return group, labels


# group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
# print(group)
# labels = ['A', 'A', 'B', 'B']
# print(labels)


def classify0(inX, dataSet, labels, k):  # inX预测结果 dataSet训练数据集 labels训练集的标签集合  K
    dataSetSize = dataSet.shape[0]  # .shape[0]作为矩阵的方法调用，0代表返回矩阵第一维度的长度,二维矩阵第一维也就是行数。
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet  # 把inX的数据在行方向复制dataSetSize（4）次 在列上复制1次 得到跟dataSet行列数相同的新数组
    sqDiffMat = diffMat ** 2  # 每一个位置的数平方  第一行的两列数是测试集与第一个数据集的平方差
    # 如  [[101,88]     [[100,90]
    #      [101,88]      [105,60]
    #      [101,88]      [109,10]
    #      [101,88]]     [110,80]]
    sqDistances = sqDiffMat.sum(axis=1)  # sum(0)表示列相加 sum(1)表示行相加 行相加之后变成行向量了 一行的数据相加得到一个数值了 1行N列
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()  # 进行距离大小的排序返回索引
    classCount = {}  # 定义一个字典 字典的键（key）为标签 字典的值为K近邻次标签出现的次数
    for i in range(k):  # 循环K次 对标签进行计数
        voteIlabel = labels[sortedDistIndicies[i]]  # 循环取出标签集合里面的元素（取出标签集合第一个标签）
        classCount[voteIlabel] = classCount.get(voteIlabel, 0)  # 统计该标签出现次数，计数
        # classCount.get(voteIlabel,0)返回字典classCount中voteIlabel元素对应的值,若无，则进行初始化（操作如下）
        # 若不存在voteIlabel，则字典classCount中生成voteIlabel元素，并使其对应的数字为0，即 classCount = {voteIlabel：0} 次数记为0
        # 此时classCount.get(voteIlabel, 0)作用是检测并生成新元素，括号中的0只用作初始化，之后再无作用
        # 当字典中有voteIlabel元素时，classCount.get(voteIlabel,0)作用是返回该元素对应的值，即0

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # items函数，将一个字典以列表的形式返回，因为字典是无序的，所以返回的列表也是无序的。 iteritems()返回一个迭代器
    # operator.itemgetter(1)为例，作用是读取元组iteritems内的第2列，即字典classCount = {‘A’：1，‘B’：2，‘C’：3}中的[1, 2, 3]
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # reverse降序排序
    return sortedClassCount[0][0]  # 返回次数最多的类别标签

小满丫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习02——K近邻KNN算法_数据准备

第一步：准备输入数据（数据预处理）①新建一个kNN函数文件，为后续程序去调用使用它。from numpy import *import operatordef creatDataSet(): group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) # 4*2 四行两列的数组 labels = ['A', 'A'...
复制链接

扫一扫

专栏目录