from sklearn.neighbors import KNeighborsClassifier
from sklearn import ensemble
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.learning_curve import learning_curve
from sklearn.svm import SVC
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 第一步: 加载数据集
data = pd.read_excel('/home/kesci/input/data_9096/data.xlsx')
X = data.drop('Sex', axis=1)
y = data.Sex
# 第二步: 数据集标准化, 划分测试集、训练集
X = preprocessing.scale(X) # 标准化数据
X_train, X_test, y_train, y_test = train_test_split( # 随机划分训练集和测试集 7:3
X, y, test_size=0.3, random_state=0)
# 第三步: 训练模型
# KNN 模型
knn = KNeighborsClassifier() # 训练模型
knn.fit(X_train, y_train)
print(knn.predict(X_test)) # 利用模型做预测
print(y_test)
print(knn.score(X_test, y_test)) # 模型打分
# GBDT 模型
clf = ensemble.GradientBoostingClassifier()
clf.fit(X_train, y_train)
GBDT、KNN数据建模分析步骤
最新推荐文章于 2024-06-30 14:19:17 发布
本文详细介绍了使用GBDT(梯度提升决策树)和KNN(K近邻)进行数据建模的步骤。首先,探讨了数据预处理的重要性,包括缺失值处理、特征选择和标准化。接着,解释了GBDT的训练过程,强调其通过迭代增强弱预测器构建强模型的特点。然后,详细阐述了KNN算法的基本原理和参数调优。最后,讨论了两种模型的评估指标,如准确率、召回率和F1分数,并比较了它们在不同场景下的适用性。
摘要由CSDN通过智能技术生成