lgb中数据在使用前,需要经过Dataset处理。
import lightgbm as lgb
lgb_train = lgb.Dataset(X_train, y_train)
lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)
lgb.Dataset(data, label=None, reference=None, weight=None, group=None,
init_score=None, silent=False, feature_name='auto',
categorical_feature='auto', params=None, free_raw_data=True)
- reference:验证集。
- weight:样本权重。
- silent:是否静默。
- feature_name:特征名称。若为’ auto '且data为DataFrame,直接使用数据列名称。
- categorical_feature:指明类别列,lightGBM可以直接处理类别特征,不再需要将其转为one-hot形式。
- max_bin:特征的最大离散箱数。
- free_raw_data:如果为真,则在构造内部数据集之后释放原始数据,默认为真。若要再次利用数据,需设置为False。