利用python 简单的手写——k近邻算法

        算法,其实也不难,主要是在每一行代码的理解,你一行行的看过去,遇到不懂的,可以问老师,可以自己百度,都能得到很好的理解,一定得自己去理解,不然,你只是在复制粘贴,只知其用,不知其理。

       而我们想手写算法,不就是想知其理吗?一下我用代码来讲解,代码直接copy,到python环境中,是可以直接运行的。

       但我希望的是,你copy了之后,能够细细的去查看,去尝试修改你在意的每一行代码,看看结果的变化情况,最后做到能自己,不看老师的代码,写出一份自己的代码,得到准确的预测值。

       在这希望同学们都能耐心的看下去,不要怕看不懂,慢慢来,急不得的。

"""
test: 待分类的数据(x_test)
dataset:训练数据集(x_train),array类型
labels:训练集对应的类别标签(y_train)
k:近邻数
"""
import numpy as np
import operator
from sklearn.model_selection import train_test_split


def KNNClassify(test, dataset, labels, k):
    # 计算数据集有多少个样本
    number = dataset.shape[0]

    # 这里使用的是欧式距离公式
    # 对测试数据(数组test)进行复制拼接,再进行数组运算,减去训练集,得到距离
    diff = np.tile(test, (number, 1)) - dataset
    # 测试集和训练集的距离平方,
    squaredist = diff ** 2
    # sum()所有元素相加,sum(0)列相加,sum(1)行相加
    # 元素相加,开平方
    distance = (squaredist.sum(axis=1)) ** 0.5  # axis=1,按行累加

    # 对数组distance按 升序排序(argsort),返回数组排序后的值对应的索引值
    sortedDistance = distance.argsort()

    # 定义一个空字典,存放k个近邻点的分类计数
    classCount = {}
    # 对k个近邻点分类计数
    for i in range(k):
        # 第i个近邻点在distance数组中的索引,对应的分类
        votelabel = labels[sortedDistance[i]]
        # dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
        classCount[votelabel] = classCount.get(votelabel, 0) + 1

    # 对k个近邻点的分类计数按降序排序,
    # operator.itemgetter()函数创建的就是这样那个一个可调用对象,它接受字典的键名称、用数字表示的列表元素或是任何可以传给对象的__getitem__()方法的值;
    # 如果传多个标记给itemgetter(), 那么它产生的可调用对象将返回一个包含所有元素在内的元组。
    # key=operator.itemgetter(1)根据字典的值进行排序
    # key=operator.itemgetter(0)根据字典的键进行排序
    # reverse降序排序字典,返回得票数最多的分类结果
    predict = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    print("测试数据的预测类别是:", predict[0][0])
    return predict[0][0]


# 获取鸢尾花数据集,如果没有这个包,其实是一个数据集来的,下载下来就好了
from sklearn.datasets import load_iris
iris = load_iris()
# 切分数据集,iris.data:为特征值,iris.target:为目标值,
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=22)
# 要分类的数据
test_index = 10
# 使用刚刚我们写的分类器,对测试数据进行预测分类
predict = KNNClassify(x_test[test_index], x_train, y_train, 20)
print("测试的实际类别是:", y_test[test_index])
if predict == y_test[test_index]:
    print("预测准确!")
else:
    print("预测错误!")

        以上就是详细的代码,这个代码是很简陋的,还有很多地方可以提升,希望同学们在,看完之后,能去尝试,修改,优化,如此,才能是真正的学到了。

        如有不到之处还请谅解,如有错误,也请留言,指出

参考的大佬的文章:

机器学习实战教程(一):K-近邻算法(史诗级干货长文)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值