机器学习经典算法之一:KNN

什么是KNN算法

KNN算法,即K邻近算法,根据已知的数据样本排序,取得最靠近待预测样本的前K个已知数据样本的目标值,作为待预测样本的目标值,是一种监督式的学习方式
(大白话:根据邻居来推断类别)

实例:用KNN实现鸢尾花分类

案例说明:
数据集为Iris鸢尾花图片数据集,本算法通过KNN(K邻近算法)对鸢尾花进行分类,并计算最终的准确率。

# 数据集
from sklearn.datasets import load_iris
# 划分测试训练
from sklearn.model_selection import train_test_split
# 标准化
from sklearn.preprocessing import StandardScaler
# 分类器
from sklearn.neighbors import KNeighborsClassifier

def dnn_iris():
    '''用KNN算法对鸢尾花分类'''
    # 1 获取数据
    iris = load_iris()
    # 2 划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=6)# 随机数种子
    # 3 特征工程标准化(x-u/σ)区别归一化(x-min/max-min)
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    # 沿用上述的fit标准差
    x_test = transfer.transform(x_test)
    # 4 KNN算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train,y_train)
    # 5 模型评估 准确率
    score = estimator.score(x_test,y_test)
    print(score)
    return None

if __name__ == '__main__':
    print('KNN算法进行鸢尾花分类')
    dnn_iris()

算法注意的细节

1、K的选取

(1)k过大–>会出现样本不均衡带来的影响
(2)k过小–>会出现样本异常值带来的影响

2、消除量纲所选取的方法

(1)标准化–>(x-μ)/σ
(2)归一化–>(x-min)/(max-min)
在本算法中选取标准化来消除量纲影响,原因是,归一化方法可能会出现异常值的影响。

3、如何衡量样本邻近

(1)欧氏距离
样本的各个指标的差平方之和再开方
(2)曼哈顿距离
样本的各个指标的差的绝对值之和
在本算法中选取欧氏距离来衡量样本间的距离

4、时间复杂度

O(NT),其中N为数据量,T为迭代轮数,因此当T=1时,时间复杂度为O(N)。另外,距离排序算法时间复杂度为O(NlogN)。

说明:个人学习使用,参考视频链接为https://www.bilibili.com/video/BV1nt411r7tj?p=21&spm_id_from=pageDriver

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值