xgboost lightgbm catboost 多分类多标签

最新推荐文章于 2025-04-10 16:25:35 发布

weixin_ry5219775

最新推荐文章于 2025-04-10 16:25:35 发布

阅读量3.9k

点赞数 7

原文链接：https://blog.csdn.net/lrs1353281004/article/details/103350559

版权

xgboost 与 lightgbm 官方均支持多分类任务，但不直接支持多标签分类任务，实现多标签任务的方法之一是结合sklearn 提供的 multiclass 子类，如OneVsRestClassifier。

下面分别给出多分类与多标签任务的使用实例。
xgboost 多分类任务

from xgboost import XGBClassifier
import numpy as np

clf_multiclass = XGBClassifier()

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(5, size=500)  # 5 targets
val_data = np.random.rand(100, 100)

clf_multiclass.fit(train_data,train_label)
val_pred = clf_multiclass.predict(val_data)

lightgbm 多分类任务

from lightgbm import LGBMClassifier
import numpy as np

clf_multiclass = LGBMClassifier()

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(5, size=500)  # 5 targets
val_data = np.random.rand(100, 100)

clf_multiclass.fit(train_data,train_label)
val_pred = clf_multiclass.predict(val_data)

xgboost 多标签任务

from xgboost import XGBClassifier
from sklearn.multiclass import OneVsRestClassifier
import numpy as np

clf_multilabel = OneVsRestClassifier(XGBClassifier())

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(2, size=(500,20))  # 20 targets

val_data = np.random.rand(100, 100)

clf_multilabel.fit(train_data,train_label)
val_pred = clf_multilabel.predict(val_data)

lightgbm 多标签任务

from lightgbm import LGBMClassifier
from sklearn.multiclass import OneVsRestClassifier
import numpy as np

clf_multilabel = OneVsRestClassifier(LGBMClassifier())

train_data = np.random.rand(500, 100)  # 500 entities, each contains 100 features
train_label = np.random.randint(2, size=(500,20))  # 20 targets

val_data = np.random.rand(100, 100)

clf_multilabel.fit(train_data,train_label)
val_pred = clf_multilabel.predict(val_data)

运行效率相关的几个测试
1.关于多标签问题，
根据目前的测试，当数据体量较大（样本量，特征量，类别数目）时，此方案速度极慢，且如果启动并行内存占用量极大。可能由于使用OVR 直接建立了对应类别数量的分类模型，后续测试是否有更优化的实现方法。
2.xgboost 官方提供了gpu加速支持，调用语句中增加如下超参数即可
clf_multiclass = XGBClassifier(tree_method=‘gpu_hist’, gpu_id=0)
亲测使用gpu效率较高。
3. xgboost 与 lightgbm 均可通过n_jobs 设置启用并行加速，暂未进行测试。
4. lightgbm 的 gpu加速方法暂未测试。

参考资料：
stackoverflow
lightgbm官方文档
xgboost官方文档

catboost 也可以直接装载到onevsrestclassification 实现多标签分类
from catboost import CatBoostRegressor, CatBoostClassifier
https://blog.csdn.net/qq_36940806/article/details/100084041
应用