GBDT代码与学习

最新推荐文章于 2023-12-26 13:29:37 发布

IT在学民工

最新推荐文章于 2023-12-26 13:29:37 发布

阅读量274

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_54137750/article/details/117200178

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

# 先导入我们需要的库
import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split  # 用于划分测试集与训练集

from sklearn.datasets import load_iris  # 使用sklearn库中的iris数据集

data = load_iris()
X = data.data  # 特征
Y = data.target  # 类标

X = X[0:100, :]
Y = Y[0:100]  # 我们做个二分类，iris本来是三个类，前100 个包括两个类
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,
                                                    test_size=0.2, random_state=0)  # 数据划分

clas = GradientBoostingClassifier(random_state=2020)  # 我们用的默认参数，如果数据比较复杂，需要调参
clas.fit(X_train, Y_train)  # 训练模型
clas.predict(X_train)  # 预测训练集
clas.predict(X_test)  # 预测测试集
print("训练集准确率：%s" % clas.score(X_train, Y_train))  # 输出测试集准确度
print("测试集准确率：%s" % clas.score(X_test, Y_test))  # 输出测试集准确度

运行结果：

训练集准确率：1.0
测试集准确率：1.0

优秀讲解资料：

http://www.ccs.neu.edu/home/vip/teach/MLcourse/4_boosting/slides/gradient_boosting.pdf

相关知识

load_iris数据集
Iris数据集在模式识别研究领域应该是最知名的数据集了，有很多文章都用到这个数据集。这个数据集里一共包括150行记录，其中前四列为花萼长度，花萼宽度，花瓣长度，花瓣宽度等4个用于识别鸢尾花的属性，第5列为鸢尾花的类别（包括Setosa，Versicolour，Virginica三类）。也即通过判定花萼长度，花萼宽度，花瓣长度，花瓣宽度的尺寸大小来识别鸢尾花的类别。

完整模板：

train_X,test_X,train_y,test_y = train_test_split(train_data,train_target,test_size=0.3,random_state=5)

IT在学民工

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GBDT代码与学习

# 先导入我们需要的库import numpy as npimport pandas as pdfrom sklearn.ensemble import GradientBoostingClassifierfrom sklearn.model_selection import train_test_split # 用于划分测试集与训练集from sklearn.datasets import load_iris # 使用sklearn库中的iris数据集data = load_iris.
复制链接

扫一扫