机器学习02——K近邻KNN算法_数据准备

第一步:准备输入数据(数据预处理)
①新建一个kNN函数文件,为后续程序去调用使用它。

from numpy import *
import operator

def creatDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])  # 4*2 四行两列的数组
    labels = ['A', 'A', 'B', 'B']  # 一个行向量 四列1*4
    return group, labels

**

labels包含的元素个数等于group矩阵行数。

在这里插入图片描述
**
②在kNN里定义一个分类函数:classify0

# -*- coding:utf-8 -*-
from numpy import *
import operator


def creatDataSet():
    group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])  # 4*2 四行两列的数组
    labels = ['A', 'A', 'B', 'B']  # 一个行向量 四列1*4
    return group, labels


# group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
# print(group)
# labels = ['A', 'A', 'B', 'B']
# print(labels)


def classify0(inX, dataSet, labels, k):  # inX预测结果 dataSet训练数据集 labels训练集的标签集合  K
    dataSetSize = dataSet.shape[0]  # .shape[0]作为矩阵的方法调用,0代表返回矩阵第一维度的长度,二维矩阵第一维也就是行数。
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet  # 把inX的数据在行方向复制dataSetSize(4)次 在列上复制1次 得到跟dataSet行列数相同的新数组
    sqDiffMat = diffMat ** 2  # 每一个位置的数平方  第一行的两列数是测试集与第一个数据集的平方差
    # 如  [[101,88]     [[100,90]
    #      [101,88]      [105,60]
    #      [101,88]      [109,10]
    #      [101,88]]     [110,80]]
    sqDistances = sqDiffMat.sum(axis=1)  # sum(0)表示列相加 sum(1)表示行相加 行相加之后变成行向量了 一行的数据相加得到一个数值了 1行N列
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()  # 进行距离大小的排序返回索引
    classCount = {}  # 定义一个字典 字典的键(key)为标签 字典的值为K近邻次标签出现的次数
    for i in range(k):  # 循环K次 对标签进行计数
        voteIlabel = labels[sortedDistIndicies[i]]  # 循环取出标签集合里面的元素(取出标签集合第一个标签)
        classCount[voteIlabel] = classCount.get(voteIlabel, 0)  # 统计该标签出现次数,计数
        # classCount.get(voteIlabel,0)返回字典classCount中voteIlabel元素对应的值,若无,则进行初始化(操作如下)
        # 若不存在voteIlabel,则字典classCount中生成voteIlabel元素,并使其对应的数字为0,即 classCount = {voteIlabel:0} 次数记为0
        # 此时classCount.get(voteIlabel, 0)作用是检测并生成新元素,括号中的0只用作初始化,之后再无作用
        # 当字典中有voteIlabel元素时,classCount.get(voteIlabel,0)作用是返回该元素对应的值,即0

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # items函数,将一个字典以列表的形式返回,因为字典是无序的,所以返回的列表也是无序的。 iteritems()返回一个迭代器
    # operator.itemgetter(1)为例,作用是读取元组iteritems内的第2列,即字典classCount = {‘A’:1,‘B’:2,‘C’:3}中的[1, 2, 3]
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # reverse降序排序
    return sortedClassCount[0][0]  # 返回次数最多的类别标签

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值