机器学习-KNN 算法

啊波阿波波

已于 2024-08-21 22:52:03 修改

阅读量2.3k

点赞数 40

文章标签：机器学习算法人工智能

于 2024-08-21 22:38:50 首次发布

本文链接：https://blog.csdn.net/alb3117149013/article/details/141402146

版权

一.K-近邻(KNN)

K-近邻（K-Nearest Neighbors, 简称 KNN）是一种基于实例的学习算法，主要用于分类和回归问题。KNN 的工作原理直观且简单，它基于相似性进行预测，也就是说给定一个新的数据点，KNN 算法会查找距离最近的 K 个数据点，然后通过这些邻居来确定新数据点的类别（在分类任务中）或数值（在回归任务中）。

KNN 的工作原理

选择 K 值：
- K 是算法中的一个超参数，表示在做出预测时要参考的最近邻居的数量。常见的取值是 3、5、7 等。
- K 值的选择直接影响模型性能。较小的 K 值使模型对局部噪声更敏感，而较大的 K 值则会使模型过于平滑，可能会错过局部模式。
计算距离：
- 常用的距离度量方式是欧几里得距离，也可以使用曼哈顿距离、闵可夫斯基距离等。
- 欧几里得距离公式：
  $\sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$
其中，x 和 y 是两个数据点， n 是特征的数量。
确定最近的 K 个邻居：
- 根据计算得到的距离，选出距离最近的 K 个点作为邻居。
分类（对于分类问题）：
- 在分类任务中，KNN 通过让 K 个最近邻居中的多数投票来决定新数据点的类别。
- 例如，如果在 K=5 的情况下，有 3 个邻居属于类别 A，2 个属于类别 B，那么预测结果将是类别 A。
回归（对于回归问题）：
- 在回归任务中，KNN 通过计算 K 个最近邻居的平均值（或加权平均值）来预测新数据点的数值。

KNN 算法的优缺点

优点：

简单直观，易于理解和实现。
不需要训练阶段，属于“懒惰学习”（Lazy Learning），即模型在训练阶段几乎不做计算，预测时才进行计算。
可用于多类别分类问题。

缺点：

计算复杂度高：由于在预测时需要计算每个数据点与新数据点的距离，特别是在数据量大时，计算开销较大。
对数据的标度敏感：特征的不同标度（如度量单位不同）可能会影响距离计算，因此通常需要对数据进行标准化或归一化。
对噪声敏感：K 值较小时，噪声点可能会对结果产生较大影响。

适用场景

小数据集：由于 KNN 的计算开销较大，它更适合于小型数据集。
多类别分类：KNN 可以很好地处理多类别分类问题。
实例具有自然分组的情况：如果数据本身具有天然的分组或簇结构，KNN 能够很好地捕捉这些模式。

KNN 算法的代码示例（分类任务）

下面是一个简单的 KNN 分类任务代码示例：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 初始化KNN分类器，设置K=3
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测
y_pred = knn.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy}")

`KNeighborsClassifier` 参数详细解释

n_neighbors:
- 解释: 指定参与投票的最近邻居的数量，即 K 值。
- 类型: 整数。
- 默认值: 5。
- 作用: 决定了模型在分类时会考虑多少个最近邻居。例如，n_neighbors=3 表示将选择距离最近的 3 个样本进行投票。
- 示例: n_neighbors=3
weights:
- 解释: 决定如何计算每个邻居的投票权重。常见的选项有：
  - 'uniform': 所有邻居的权重相等。
  - 'distance': 根据距离进行加权，距离越近的邻居权重越高。
  - 自定义函数：可以传入一个用户定义的函数，基于该函数计算权重。
- 类型: 字符串或可调用函数。
- 默认值: 'uniform'。
- 作用: 影响分类决策。如果选择 'distance'，那么更近的邻居对分类结果影响更大。
- 示例: weights='distance'
algorithm:
- 解释: 用于计算最近邻居的算法，有以下几种选择：
  - 'auto': 自动选择最合适的算法（根据数据的特征选择）。
  - 'ball_tree': 使用 Ball Tree 数据结构，适合高维数据。
  - 'kd_tree': 使用 KD Tree 数据结构，适合低维数据。
  - 'brute': 直接进行暴力搜索，计算所有点的距离。
- 类型: 字符串。
- 默认值: 'auto'。
- 作用: 控制最近邻居搜索的速度和内存效率，通常建议使用默认的 'auto' 选项。
- 示例: algorithm='kd_tree'
leaf_size:
- 解释: 指定 Ball Tree 或 KD Tree 的叶子节点大小，影响树的构建和查询速度。较小的叶子节点通常会带来更快的查询速度，但会消耗更多的内存。
- 类型: 整数。
- 默认值: 30。
- 作用: 在使用 'ball_tree' 或 'kd_tree' 算法时，可以调整该值以优化查询性能。
- 示例: leaf_size=20
p:
- 解释: 当使用 minkowski 距离度量时，定义了距离公式中的幂指数：
  - 当 p=1 时，使用曼哈顿距离（L1）。
  - 当 p=2 时，使用欧几里得距离（L2）。
- 类型: 整数。
- 默认值: 2。
- 作用: 控制距离的计算方式，可以根据数据特性调整该参数。
- 示例: p=1（使用曼哈顿距离）
metric:
- 解释: 指定距离度量的方式。常用选项有：
  - 'minkowski': 闵可夫斯基距离，是欧几里得距离和曼哈顿距离的泛化形式。
  - 'euclidean': 欧几里得距离，等同于 minkowski 距离与 p=2 的组合。
  - 'manhattan': 曼哈顿距离，等同于 minkowski 距离与 p=1 的组合。
  - 其他度量方法如 'chebyshev' 或自定义距离函数。
- 类型: 字符串或可调用函数。
- 默认值: 'minkowski'。
- 作用: 控制如何计算样本之间的距离，影响最近邻居的选择。
- 示例: metric='euclidean'
metric_params:
- 解释: 距离度量函数的附加参数（可选）。如果使用自定义的距离函数，可以通过这个参数传递额外信息。
- 类型: 字典或 None。
- 默认值: None。
- 作用: 用于在自定义度量函数时，提供额外的控制参数。
- 示例: metric_params={'w': [1, 2, 3]}（示例自定义权重）
n_jobs:
- 解释: 用于并行处理最近邻居搜索的线程数量。如果设置为 -1，则使用所有可用的 CPU 核心进行计算。
- 类型: 整数。
- 默认值: None（使用单个 CPU 核心）。
- 作用: 在大数据集上可以使用多线程加速计算，缩短模型训练和预测时间。
- 示例: n_jobs=-1

二.K-折交叉验证

K-折交叉验证（K-Fold Cross-Validation）是一种常用的模型评估方法，广泛用于机器学习中。它通过将数据集划分为 K 个相同大小的子集（称为“折”），来多次训练和测试模型，从而获得更稳定和可靠的性能评估。

工作原理

划分数据集:
- 将整个数据集随机划分成 K 个等大小的子集。每个子集称为一个“折”。
训练和验证:
- 在每次迭代中，选择其中一个折作为验证集，剩余的 K-1 个折作为训练集。
- 这个过程会重复 K 次，每次选择不同的折作为验证集，其余折作为训练集。
计算平均性能:
- 每次迭代都会得到一个模型的性能度量（如准确率、F1 分数等）。最终将 K 次迭代的性能结果进行平均，得到整体的模型性能。

优点

稳定的性能评估: 通过多次迭代，K-折交叉验证减小了模型评估中的随机性，得到的结果更具稳定性。
充分利用数据: 每一个样本都在不同的折中被用作训练和验证集，避免了数据浪费。

参数选择

K 的取值: K 通常取值为 5 或 10，这两种配置在大多数应用中效果较好。较小的 K 值（如 2 或 3）会导致较大的方差，而较大的 K 值（如 20）则增加了计算开销。
Shuffle（可选）: 在划分数据集之前，可以选择对数据进行洗牌（shuffle），以确保每个折的样本分布更随机。

代码示例

下面是一个使用 scikit-learn 实现 K-折交叉验证的示例：

from sklearn.model_selection import KFold
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 初始化K折交叉验证
kf = KFold(n_splits=5, shuffle=True, random_state=42)

# 存储每折的准确率
accuracies = []

# 执行交叉验证
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # 初始化并训练模型
    model = LogisticRegression(max_iter=200)
    model.fit(X_train, y_train)
    
    # 预测并计算准确率
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)

# 输出结果
print(f"每折的准确率: {accuracies}")
print(f"平均准确率: {np.mean(accuracies)}")

解释

KFold(n_splits=5, shuffle=True, random_state=42):
- n_splits=5 指定将数据集划分为 5 个折。
- shuffle=True 表示在分割数据之前打乱数据，以确保每个折的样本分布更加随机。
- random_state=42 确保结果的可重复性。
kf.split(X):
- 生成训练集和测试集的索引。对于每一折，都会用不同的折作为测试集。

三.分层k-折交叉验证(Stratified k-fold)

`StratifiedKFold` 参数

n_splits:
- 解释: 指定将数据集划分成多少个折（子集）。
- 类型: 整数。
- 默认值: 5。
- 示例: n_splits=5 表示数据将被分成 5 个折。
shuffle:
- 解释: 指定是否在分割之前对数据进行洗牌（打乱顺序）。如果为 True，则在分割数据之前会对数据进行打乱，减少样本顺序对模型评估的影响。
- 类型: 布尔值。
- 默认值: False。
- 示例: shuffle=True 表示在分割之前打乱数据。
random_state:
- 解释: 用于控制随机数生成器的种子，确保结果的可重复性。当 shuffle=True 时使用。
- 类型: 整数或 None。
- 默认值: None。
- 示例: random_state=42 确保在每次运行时数据划分的一致性。
min_groups (仅在 scikit-learn 版本 0.24 及以后版本中可用):
- 解释: 用于指定每个折中样本的最小组数。主要用于对分层 K-折交叉验证的样本量进行控制，确保每一折中至少有指定数量的组。
- 类型: 整数。
- 默认值: 1。
- 示例: min_groups=5 表示每个折中至少包含 5 个组。

使用示例

from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np

# 加载数据集
data = load_iris()
X = data.data
y = data.target

# 初始化分层K折交叉验证
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# 存储每折的准确率
accuracies = []

# 执行交叉验证
for train_index, test_index in skf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    # 初始化并训练模型
    model = LogisticRegression(max_iter=200)
    model.fit(X_train, y_train)
    
    # 预测并计算准确率
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)

# 输出结果
print(f"每折的准确率: {accuracies}")
print(f"平均准确率: {np.mean(accuracies)}")

四.模型与加载

在 scikit-learn 中，保存和加载模型通常使用 joblib 或 pickle。joblib 是 scikit-learn 推荐的方式，因为它在处理大型模型（如包含大量数组的模型）时效率更高。

1. 使用 `joblib` 保存和加载模型

模型保存

import joblib

# 保存模型到文件
joblib.dump(knn, 'knn_model.pkl')

模型加载

# 从文件加载模型
loaded_model = joblib.load('knn_model.pkl')

# 使用加载的模型进行预测
y_pred = loaded_model.predict(X_test)

2. 使用 `pickle` 保存和加载模型

模型保存

import pickle

# 保存模型到文件
with open('knn_model.pkl', 'wb') as file:
    pickle.dump(knn, file)

模型加载

# 从文件加载模型
with open('knn_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

# 使用加载的模型进行预测
y_pred = loaded_model.predict(X_test)

总结

joblib 更适合包含大量数组的模型。
pickle 适用于一般情况下的模型保存和加载。

五.超参数搜索

超参数搜索（Hyperparameter Tuning）是机器学习模型优化的重要步骤。不同的超参数配置会对模型的性能产生显著影响，因此找到最优的超参数组合对于提升模型性能至关重要。

class sklearn.model_selection.GridSearchCV(estimator, param_grid)

说明：
同时进行交叉验证(CV)、和网格搜索(GridSearch)，GridSearchCV实计上也是一个估计器(estimator)，同时它有几个重要属性：
best_params_ 最佳参数
best_score_ 在训练集中的准确率
best_estimator_ 最佳估计器
cv_results_ 交叉验证过程描述
best_index_最佳k在列表中的下标

完整示例代码

    #   best_params_  最佳参数
    #   best_score_ 在训练集中的准确率
    #   best_estimator_ 最佳估计器
    #   cv_results_ 交叉验证过程描述
    #   best_index_最佳k在列表中的下标

from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler #标准化
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.model_selection import GridSearchCV #超参数GridSearchCV
from sklearn.decomposition import PCA #PCA降维
import pandas as pd

data = load_wine()

#数据结构 
x = pd.DataFrame(data.data,columns=data.feature_names)

#标准化
tr = StandardScaler()
x2 = tr.fit_transform(x)

#数据结构 
data2 = pd.DataFrame(x2,columns=data.feature_names)


#PCA降维
transfer1 = PCA(n_components=0.5)
data2 = transfer1.fit_transform(data2)


x_train,x_test,y_train,y_test = train_test_split(data2,data.target,test_size=0.2,random_state=33)

#创建模型
param = {'n_neighbors':[1,2,3,4,5,6,7,8,9,10]}

#knn
model = KNeighborsClassifier()
model = GridSearchCV(model,param)
model.fit(x_train,y_train)

#预测
predict = model.predict(x_test)

score = model.score(x_test,y_test)


print("最佳模型:", model.best_estimator_)
print("最佳参数:\n",model.best_params_)
print("最佳k在列表中的下标:\n",model.best_index_)
print("在训练集中的准确率:\n",model.best_score_)
print("最佳估计器:\n",model.best_estimator_)
print("交叉验证过程描述:\n",model.cv_results_)

总结

best_params_：最优的超参数组合。
best_score_：在交叉验证中的最佳平均得分。
best_estimator_：使用最佳超参数组合训练的模型。
cv_results_：交叉验证过程中所有超参数组合的详细结果。
best_index_：最优超参数组合在结果中的索引。

这些属性为你提供了全面的模型优化信息，帮助你选择和评估最佳模型。

实例：葡萄酒–分层k-折交叉验证

from sklearn.datasets import load_wine
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import StratifiedKFold
import pandas as pd
import numpy as np
#加载数据
data = load_wine()

X = pd.DataFrame(data=data.data,columns=data.feature_names)

#标准化
transfer = StandardScaler()
X1 = transfer.fit_transform(X)
X2 = pd.DataFrame(X1,columns=data.feature_names)

#降维
transfer1 = PCA(n_components=0.5)
data1 = transfer1.fit_transform(X2)

#分层k-折交叉验证Stratified k-fold
skf = StratifiedKFold(n_splits=10,shuffle=True,random_state=2)

#储存每折准确率
accuracies = []

for train_index,test_index in skf.split(data1,data.target):
    x_train,x_test = data1[train_index],data1[test_index]
    y_train,y_test = data.target[train_index],data.target[test_index]
    #K近邻模型
    estimator = KNeighborsClassifier(n_neighbors=9)
    estimator.fit(x_train,y_train)

    #预测
    y_predict = estimator.predict(x_test)
    # print("y_predict:\n",y_test ==y_predict)
    #计算准确率
    score = estimator.score(x_test,y_test)
    accuracies.append(score)
    
print(accuracies)
print(np.mean(accuracies))

实例2 葡萄酒–K-折交叉验证(K-fold)

from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.decomposition import PCA
import pandas as pd
import joblib

data = load_wine()

x = pd.DataFrame(data.data,columns=data.feature_names)

#标准化
sta = StandardScaler()
x1 = sta.fit_transform(x)

x2 = pd.DataFrame(x1,columns=data.feature_names)

#降维
tra = PCA(n_components=0.6)

data1 = tra.fit_transform(x2)

kf = KFold(n_splits=10,shuffle=True,random_state=33)
#标准化
accuracies =[]
best_accuracy = 0
best_model = None


for train_index,test_index in kf.split(data1,data.target):
    x_train,x_test = data1[train_index],data1[test_index]
    y_train,y_test = data.target[train_index],data.target[test_index]

    #创建模型
    model = KNeighborsClassifier(n_neighbors=7)
    model.fit(x_train,y_train)

    #预测
    predict = model.predict(x_test)
    
    #准确率
    score = model.score(x_test,y_test)
    accuracies.append(score)
    
    if score > best_accuracy:
        best_accuracy = score
        best_model = model


# print("模型评估率：\n",accuracies)
# print("平均得分：\n",np.mean(accuracies))

joblib.dump(best_model,'./src/KNNmodel.pkl')
# 输出结果
print(f"每折的准确率: {accuracies}")
print(f"最高准确率: {best_accuracy}")

实例：mytool 函数的功能

mytool 函数的功能是计算一个文本数据集中每个词的 TF-IDF 值。TF-IDF 是一种常用的文本挖掘方法，用于衡量一个词在文档中的重要性。

import math  
from collections import defaultdict  

def calculate_tfidf(data):  
    total_documents = len(data)  
    word_document_count = defaultdict(int)  

    # 统计每个词在文档中出现的次数  
    for document in data:  
        unique_words = set(document.split())  
        for word in unique_words:  
            word_document_count[word] += 1  

    tfidf_matrix = []  
    
    # 计算每个文档的TF-IDF  
    for document in data:  
        word_list = document.split()  
        total_words = len(word_list)  
        
        tfidf_scores = []  
        for word in set(word_list):  
            TF = word_list.count(word) / total_words  
            IDF = math.log(total_documents / (1 + word_document_count[word]))  
            tfidf_scores.append(TF * IDF)  

        tfidf_matrix.append(tfidf_scores)  

    return tfidf_matrix  

# 示例使用  
data = [
    '世界 你好 我 是 华清 远见 的 张三',
    '你好 世界 我 是 李四 世界',
    '华清 远见 666'
] 

result = calculate_tfidf(data)  
print(result)