xgboost 与 lightgbm 多分类与多标签任务 python代码实例

最新推荐文章于 2024-07-01 00:10:44 发布

Cris_Lee卡卡卡

最新推荐文章于 2024-07-01 00:10:44 发布

阅读量1w

点赞数 7

分类专栏： python 文章标签： python xgboost lightgbm multilabel multiclass

本文链接：https://blog.csdn.net/lrs1353281004/article/details/103350559

版权

python 专栏收录该内容

28 篇文章 0 订阅

订阅专栏

xgboost 与 lightgbm 官方均支持多分类任务，但不直接支持多标签分类任务，实现多标签任务的方法之一是结合sklearn 提供的 multiclass 子类，如OneVsRestClassifier。

下面分别给出多分类与多标签任务的使用实例。

xgboost 多分类任务

from xgboost import XGBClassifier
import numpy as np

clf_multiclass = XGBClassifier()

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(5, size=500)  # 5 targets
val_data = np.random.rand(100, 100)

clf_multiclass.fit(train_data,train_label)
val_pred = clf_multiclass.predict(val_data)

lightgbm 多分类任务

from lightgbm import LGBMClassifier
import numpy as np

clf_multiclass = LGBMClassifier()

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(5, size=500)  # 5 targets
val_data = np.random.rand(100, 100)

clf_multiclass.fit(train_data,train_label)
val_pred = clf_multiclass.predict(val_data)

xgboost 多标签任务

from xgboost import XGBClassifier
from sklearn.multiclass import OneVsRestClassifier
import numpy as np

clf_multilabel = OneVsRestClassifier(XGBClassifier())

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(2, size=(500,20))  # 20 targets

val_data = np.random.rand(100, 100)

clf_multilabel.fit(train_data,train_label)
val_pred = clf_multilabel.predict(val_data)

lightgbm 多标签任务

from lightgbm import LGBMClassifier
from sklearn.multiclass import OneVsRestClassifier
import numpy as np

clf_multilabel = OneVsRestClassifier(LGBMClassifier())

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(2, size=(500,20))  # 20 targets

val_data = np.random.rand(100, 100)

clf_multilabel.fit(train_data,train_label)
val_pred = clf_multilabel.predict(val_data)

运行效率相关的几个测试

1.关于多标签问题，
根据目前的测试，当数据体量较大（样本量，特征量，类别数目）时，此方案速度极慢，且如果启动并行内存占用量极大。可能由于使用OVR 直接建立了对应类别数量的分类模型，后续测试是否有更优化的实现方法。

2.xgboost 官方提供了gpu加速支持，调用语句中增加如下超参数即可

clf_multiclass = XGBClassifier(tree_method='gpu_hist', gpu_id=0)

亲测使用gpu效率较高。
3. xgboost 与 lightgbm 均可通过n_jobs 设置启用并行加速，暂未进行测试。
4. lightgbm 的 gpu加速方法暂未测试。

参考资料：

stackoverflow
lightgbm官方文档
 xgboost官方文档

Cris_Lee卡卡卡

关注

7
点赞
踩
58

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录