GBDT、KNN数据建模分析步骤

最新推荐文章于 2024-06-30 14:19:17 发布

Luzaofa

最新推荐文章于 2024-06-30 14:19:17 发布

阅读量1.6k

点赞数

文章标签： GDBT

本文链接：https://blog.csdn.net/Luzaofa/article/details/80387764

版权

本文详细介绍了使用GBDT（梯度提升决策树）和KNN（K近邻）进行数据建模的步骤。首先，探讨了数据预处理的重要性，包括缺失值处理、特征选择和标准化。接着，解释了GBDT的训练过程，强调其通过迭代增强弱预测器构建强模型的特点。然后，详细阐述了KNN算法的基本原理和参数调优。最后，讨论了两种模型的评估指标，如准确率、召回率和F1分数，并比较了它们在不同场景下的适用性。

摘要由CSDN通过智能技术生成

from sklearn.neighbors import KNeighborsClassifier
from sklearn import ensemble
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.learning_curve import learning_curve
from sklearn.svm import SVC
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 第一步： 加载数据集
data = pd.read_excel('/home/kesci/input/data_9096/data.xlsx')
X = data.drop('Sex', axis=1)
y = data.Sex
# 第二步： 数据集标准化， 划分测试集、训练集
X = preprocessing.scale(X)    # 标准化数据
X_train, X_test, y_train, y_test = train_test_split(     # 随机划分训练集和测试集 7:3
                X, y, test_size=0.3, random_state=0)
# 第三步： 训练模型
# KNN 模型
knn = KNeighborsClassifier()            # 训练模型
knn.fit(X_train, y_train)
print(knn.predict(X_test))            # 利用模型做预测
print(y_test)
print(knn.score(X_test, y_test))      # 模型打分
# GBDT 模型
clf = ensemble.GradientBoostingClassifier()
clf.fit(X_train, y_train)