GBDT、KNN数据建模分析步骤

本文详细介绍了使用GBDT(梯度提升决策树)和KNN(K近邻)进行数据建模的步骤。首先,探讨了数据预处理的重要性,包括缺失值处理、特征选择和标准化。接着,解释了GBDT的训练过程,强调其通过迭代增强弱预测器构建强模型的特点。然后,详细阐述了KNN算法的基本原理和参数调优。最后,讨论了两种模型的评估指标,如准确率、召回率和F1分数,并比较了它们在不同场景下的适用性。
摘要由CSDN通过智能技术生成
from sklearn.neighbors import KNeighborsClassifier
from sklearn import ensemble
from sklearn.model_selection import train_test_split
from sklearn import preprocessing
from sklearn.learning_curve import learning_curve
from sklearn.svm import SVC
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# 第一步: 加载数据集
data = pd.read_excel('/home/kesci/input/data_9096/data.xlsx')
X = data.drop('Sex', axis=1)
y = data.Sex
# 第二步: 数据集标准化, 划分测试集、训练集
X = preprocessing.scale(X)    # 标准化数据
X_train, X_test, y_train, y_test = train_test_split(     # 随机划分训练集和测试集 7:3
                X, y, test_size=0.3, random_state=0)
# 第三步: 训练模型
# KNN 模型
knn = KNeighborsClassifier()            # 训练模型
knn.fit(X_train, y_train)
print(knn.predict(X_test))            # 利用模型做预测
print(y_test)
print(knn.score(X_test, y_test))      # 模型打分
# GBDT 模型
clf = ensemble.GradientBoostingClassifier()
clf.fit(X_train, y_train)
GBDT回归中,数据特征选择是一个重要的步骤。特征选择的目的是从原始数据中选择出最具预测能力的特征,以提高模型的性能和准确性。通常有两种常用的特征选择方法可以应用于GBDT回归。 第一种方法是基于树的特征选择。在GBDT回归中,每棵树的分割过程都是通过选择最佳的特征来进行的。这意味着,在训练过程中,GBDT回归模型会根据特征的重要性动态地调整树的结构。因此,通过观察每个特征在GBDT回归模型中的重要性,我们可以获得特征的排序,并选择排名靠前的特征作为最终的特征子集。 第二种方法是基于特征的重要性度量。在GBDT回归中,每个特征都有一个重要性度量,用于衡量该特征在模型中的贡献程度。这些度量可以通过计算特征在每棵树中的分裂增益或特征在整个模型中的累积增益来得到。通过比较不同特征的重要性度量,我们可以选择具有较高度量值的特征作为最终的特征子集。 总结起来,在GBDT回归中进行数据特征选择的方法包括基于树的特征选择和基于特征的重要性度量。这些方法都可以帮助我们选择具有预测能力的特征,并提高模型的性能和准确性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [初识GBDT回归流程](https://blog.csdn.net/qq_34525938/article/details/114503469)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [gbdt 回归 特征重要性 排序_GBDT算法原理及应用](https://blog.csdn.net/weixin_39778003/article/details/110276362)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值