天池龙珠训练营-机器学习学习笔记-02 XGBoost 分类

最新推荐文章于 2024-01-25 17:39:44 发布

qinqinwawa

最新推荐文章于 2024-01-25 17:39:44 发布

阅读量232

点赞数

分类专栏：阿里云天池龙珠训练营 -机器学习项目文章标签：机器学习

本文链接：https://blog.csdn.net/qinqinwawa/article/details/117355806

版权

阿里云天池龙珠训练营 -机器学习项目专栏收录该内容

3 篇文章 0 订阅

订阅专栏

天池龙珠训练营-机器学习学习笔记-02 XGBoost 分类
本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：
训练营网址

一原理简介：

XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。
XGBoost的核心算法思想不难，基本就是：

不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。
当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数
最后只需要将每棵树对应的分数加起来就是该样本的预测值。

二代码流程

Part1 基于天气数据集的XGBoost----分类实践
Step1: 库函数导入
Step2: 数据读取/载入
Step3: 数据信息简单查看
Step4: 可视化描述
Step5: 对离散变量进行编码
Step6: 利用 XGBoost 进行训练与预测
Step7: 利用 XGBoost 进行特征选择
Step8: 通过调整参数获得更好的效果

标题三实战：（天气数据集预测）

基础的函数库包括：
numpy （Python进行科学计算的基础软件包），
pandas（pandas是一种快速，强大，灵活且易于使用的开源数据分析和处理工具），
matplotlib和seaborn绘图。

 !wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/7XGBoost/train.csv` ##---导入---需要用到的数据集

data = pd.read_csv('train.csv')    #读取并转化为DataFrame格式

data.info()    #data.head()  #查看数据的整体信息

data = data.fillna(-1)      #数据处理  缺位填补

pd.Series(data['RainTomorrow']).value_counts() ## 利用value_counts函数查看训练集-------标签的数量

1 对数据进行处理：
1 缺值补充：数据集中存在NaN，一般的我们认为NaN在数据集中代表了缺失值，可能是数据采集或处理时产生的一种错误。这里我们采用-1将缺失值进行填补，还有其他例如“中位数填补、平均数填补”的缺失值处理方法
2 对离散变量进行编码：由于XGBoost 无法处理字符串类型的数据，我们需要一些方法将字符串数据转化为数据。一种最简单的方法是把所有的相同类别的特征编码成同一个值，例如女=0，男=1，狗狗=2，所以最后编码的特征值是在 [0,特征数量−1] 之间的整数。除此之外，还有独热编码、求和编码、留一法编码等等方法可以获得更好的效果。

2 特征可视化：
1 sns.pairplot: 用来展现变量两两之间的关系，线性、非线性、相关等。
在这里插入图片描述
2.sns.boxplot：箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。

3 利用 XGBoost 进行训练与预测
为了正确评估模型性能，将数据划分为训练集和测试集，-----并在训练集上训练模型，在测试集上验证模型性能。

from sklearn.model_selection import train_test_split   # 函数导入

data_target_part = data['RainTomorrow']   #特征

data_features_part = data[[x for x in data.columns if x != 'RainTomorrow']]   #标签

x_train, x_test, y_train, y_test = train_test_split(data_features_part, data_target_part, test_size = 0.2, random_state = 2020)#测试集大小占20%。

from xgboost.sklearn import XGBClassifier# 导入-----XGBoost模型

clf = XGBClassifier()## 定义 -----XGBoost模型

```
clf.fit(x_train, y_train)# 在训练集上训练XGBoost模型
```
在训练集和测试集上分布利用训练好的模型进行预测
```
train_predict = clf.predict(x_train)
```
```
 test_predict = clf.predict(x_test)	
```

from sklearn import metrics   #混淆矩阵

4 模型效果评估
利用----accuracy（准确度）【预测正确的样本数目占总预测样本数目的比例】评估模型效果

   print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))

   print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))

查看------混淆矩阵 (预测值和真实值的各类情况统计矩阵)

confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)

print('The confusion matrix result:\n',confusion_matrix_result)

利用-------热力图对于结果进行可视化

```
plt.figure(figsize=(8, 6))
```

sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')

```
plt.xlabel('Predicted labels')	
```
```
plt.ylabel('True labels')
```
```
plt.show()
```

5 利用 XGBoost 进行特征选择

XGBoost的特征选择属于特征选择中的嵌入式方法，在XGboost中可以用属性feature_importances_去查看特征的重要度。
#画特征重要图.y为特征名称，x为重要值 #画条形图

 sns.barplot(y=data_features_part.columns, x=clf.feature_importances_)

在这里插入图片描述
6 通过调整参数获得更好的效果

XGBoost中包括但不限于下列对模型影响较大的参数：

learning_rate: 有时也叫作eta，系统默认值为0.3。每一步迭代的步长，很重要。太大了运行准确率不高，太小了运行速度慢。
subsample：系统默认为1。这个参数控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合, 取值范围零到一。
colsample_bytree：系统默认值为1。我们一般设置成0.8左右。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
max_depth：系统默认值为6，我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大，模型学习的更加具体。
调节模型参数的方法有贪心算法、网格调参、贝叶斯调参等。这里我们采用网格调参，它的基本思想是穷举搜索：在所有候选的参数选择中，通过循环遍历，尝试每一种可能性，表现最好的参数就是最终的结果。

7 从sklearn库中导入----网格调参函数

from sklearn.model_selection import GridSearchCV

定义—参数取值范围

```
 learning_rate = [0.1, 0.3, 0.6]
```
```
 subsample = [0.8, 0.9]
```
```
 colsample_bytree = [0.6, 0.8]
```
```
 max_depth = [3,5,8]
```

 parameters = { 'learning_rate': learning_rate,
       'subsample': subsample,
       'colsample_bytree':colsample_bytree,
       'max_depth': max_depth}

 model = XGBClassifier(n_estimators = 50)

进行----网格搜索

 clf = GridSearchCV(model, parameters, cv=3, scoring='accuracy',verbose=1,n_jobs=-1)

 clf = clf.fit(x_train, y_train)   #训练

 clf.best_params_	# # 网格搜索后的----最好参数

得到优化的参数后重新进行训练、预测、准确度计算。

通俗理解kaggle比赛大杀器xgboost
天池训练营

qinqinwawa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
天池龙珠训练营-机器学习学习笔记-02 XGBoost 分类

天池龙珠训练营-机器学习学习笔记-02 XGBoost 分类本学习笔记为阿里云天池龙珠计划机器学习训练营的学习内容，学习链接为：训练营网址一原理简介：XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。XGBoost的核心算法思想不难，基本就是：不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个
复制链接

扫一扫