风火编程--机器学习之k近邻(knn)

最新推荐文章于 2024-04-01 22:30:07 发布

风火编程

最新推荐文章于 2024-04-01 22:30:07 发布

阅读量250

点赞数

分类专栏：机器学习文章标签： knn 机器学习网格搜索调参 k近邻

本文链接：https://blog.csdn.net/weixin_42620314/article/details/86505528

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

机器学习算法–k近邻

描述
根据距离(欧拉距离,曼哈顿距离等)最近的k个样本进行类别的投票, 票数最高的类别. 认为是该样本的类别是所属类别. k值可以通过网格搜索确定,过小容易受异常点影响,泛化能力弱, 过大会削弱距离的作用
效率低,不具有可解释性,维度灾难(距离随维度的升高迅速变大),需要pca降维. 需要进行归一化处理.
适用于样本数量不大的训练集, 没有可解释性要求的场景.
python实现
x_train为训练集, x为测试样本

import numpy as np
from collections import Counter
distences = [sqrt(sum((x_t-x)**2)) for x_t in x_train]
nearest = np.argsort(distences)[:k]
# distence的索引和y_train是一一对应的
topk_y = y_train[nearest]
# 统计每个元素出现的次数,返回类字典的counter结果集
votes = Counter(topk_y)
# 取出出现次数最多的一个元素的item,用列表保存.
ret = votes.most_common(1)
predict_y = ret[0][0]

sklearn接口

from sklearn.neighbors import KNeighborsClassifier
# k值设置为3
knn = KNeighborsClassifier(n_neighbors=3)

调参
knn默认的参数为: n_neighbors=5,weights=“uniform”
其他可选(区别距离的远近,明可夫司机距离幂指参数为n): weights=“distence”,p=n

from sklearn.model_selection import GridSearchCV

  # 定义参数列表套字典,键是超参数名值是测试值得列表
params = [{
        "weights": ["uniform"],
        "n_neibors": [i for i in range(1,11)]
           },
          {
            "weights": ["distence"],
            "n_neibors": [i for i in range(1,11)],
           "p":[i for i in range(1,6)]
           }
          ]
# 参数为估计器模型实例和参数,交叉验证次数
gride_search = GridSearchCV(cnn,params, cv=5)
gride_search.fit(x_test,y_test)
from sklearn.model_selection import GridSearchCV
# 参数为估计器模型实例和参数,使用CPU内核数,输出测试过程
gride_search = GridSearchCV(cnn,params,n_jobs=-1,verbose=2)
gride_search.fit(x_test,y_test)
# 最佳准确度的值
score1 = gride_search.best_score_
 score2 = gride_search.best_estimator_.score(X_test_s, y)
# 获取最佳参数
param = gride_search.best_params_
# 获取最佳参数的模型
best_knn = gride_search.best_estimator_