KNN与高斯过程回归：探索非参数模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_42389113/article/details/147237552

KNN与高斯过程回归：探索非参数模型

背景简介

在机器学习中，回归算法是预测连续量的重要工具。非参数模型，例如K最近邻（KNN）回归和高斯过程（GP）回归，提供了一种灵活的方法来学习数据之间的复杂关系。本篇博文将深入探讨这两种模型的原理及其在实际应用中的表现。

KNN回归

原理和实现

KNN回归是一种基于实例的学习，它通过找到与查询点最近的K个邻居，并计算这些邻居的平均响应变量来预测目标标签。这种方法不需要建立数据之间的显式函数关系，而是直接利用数据的局部结构来进行预测。

# 示例代码：KNN回归
from sklearn import datasets
from sklearn.model_selection import train_test_split
import numpy as np

# 加载数据集
iris = datasets.load_iris()
X = iris.data[:,:2]
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# KNN回归器实现
class KNN():
    def __init__(self, K):
        self.K = K

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum(np.power(x1 - x2, 2)))

    def knn_search(self, X_train, y_train, Q):
        y_pred = np.empty(Q.shape[0])
        for i, query in enumerate(Q):
            idx = np.argsort([self.euclidean_distance(query, x) for x in X_train])[:self.K]
            knn_labels = y_train[idx]
            y_pred[i] = np.mean(knn_labels)
        return y_pred

knn = KNN(K=4)
y_pred = knn.knn_search(X_train, y_train, X_test)

应用与分析

KNN回归在小规模数据集上表现良好，但随着数据集规模的增加，计算量和存储需求将显著增加。此外，K值的选择也对模型性能有重要影响。

高斯过程回归

原理和实现

高斯过程是一种概率性的非参数模型，它通过核函数在无限维空间中定义函数的先验分布，并在观测到数据后更新为后验分布。GP回归可以很好地处理具有不确定性和噪声的数据。

# 示例代码：GP回归
import numpy as np
import matplotlib.pyplot as plt
from scipy.spatial.distance import cdist

# GP回归器实现
class GPreg():
    def __init__(self, X_train, y_train, X_test):
        # 初始化相关参数
        pass

    def mean_func(self, x):
        # 定义均值函数
        pass

    def kernel_func(self, x, z):
        # 定义核函数
        pass

    def compute_posterior(self):
        # 计算后验分布
        pass

    def generate_plots(self, X, num_samples=3):
        # 生成图形展示
        pass

# 示例数据
X_train = np.array([-4, -3, -2, -1, 1]).reshape(-1, 1)
y_train = np.sin(X_train)
X_test = np.linspace(-5, 5, 50).reshape(-1, 1)

gp = GPreg(X_train, y_train, X_test)
gp.generate_plots(X_test,3)
gp.compute_posterior()
gp.generate_plots(X_test,3)