lightgbm模型处理类别型特征

类别型特征编码由于是字符串类型,所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意:xgboost模型也需要提前one-hot编码转换才能入模。

下面是代码:

    a = [i for i in range(1000)]
    b = ["tag","bga","efd","rfh","esg","tyh"]
    c = [b[randint(0,5)] for i in range(1000)]
    d = [randint(0,1) for i in range(1000)]
    tmp = []
    for i in range(1000):
        tmp.append([a[i],c[i],d[i]])
    df = pd.DataFrame(tmp,columns=["a","b","label"])   # 造数据


    import lightgbm

    df["b"] = df["b"].astype('category')   # 必须有,不然报错
    cf = lightgbm.LGBMClassifier(max_depth=3)
    cf.fit(df[["a","b"]],df["label"],categorical_feature="b")  # 记得加上这个参数

    from sklearn.metrics import accuracy_score
    print(accuracy_score(df["label"].values, cf.predict(df[["a","b"]])))

就是这么easy!

 

 

 

  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
BorutaPy是一个特征选择算法,可以用来识别哪些特征对于给定的机器学习问题是有用的。它的工作原理是通过比较原始特征和随机生成的“影子特征”来确定每个特征的重要性。影子特征是对原始特征进行随机重组得到的,与原始特征具有相同的统计属性,但没有实际意义。BorutaPy在确定哪些特征是重要的时,将原始特征和影子特征组合在一起进行比较。如果原始特征比影子特征更重要,则该特征被标记为“重要”。否则,该特征被标记为“不确定”。最终,重要性得分高于影子特征特征被认为是重要特征。 在LightGBM模型上应用BorutaPy特征选择算法可以按照以下步骤进行: 1. 导入BorutaPy和LightGBM库 ``` python from boruta import BorutaPy import lightgbm as lgb ``` 2. 准备数据集 ``` python # X为特征矩阵,y为目标变量 X = ... y = ... ``` 3. 初始化LightGBM模型 ``` python lgb_model = lgb.LGBMRegressor() ``` 4. 初始化BorutaPy特征选择算法 ``` python # n_estimators为基学习器数量,random_state为随机种子 boruta_selector = BorutaPy(lgb_model, n_estimators='auto', random_state=0) ``` 5. 运行BorutaPy特征选择算法 ``` python boruta_selector.fit(X.values, y.values.ravel()) ``` 6. 获取被认为是重要特征特征名称 ``` python # 被认为是重要特征特征名称 important_features = X.columns[boruta_selector.support_].tolist() ``` 现在,你已经使用BorutaPy特征选择算法识别出了哪些特征对于LightGBM模型是重要的。你可以使用这些特征来训练一个更精准的模型
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值