lightgbm模型处理类别型特征

最新推荐文章于 2024-05-16 22:04:25 发布

gyl2016

最新推荐文章于 2024-05-16 22:04:25 发布

阅读量8.3k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/NOT_GUY/article/details/112724220

版权

lightgbm 字符串特征 one-hot编码模型训练准确性

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

类别型特征编码由于是字符串类型，所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意：xgboost模型也需要提前one-hot编码转换才能入模。

下面是代码：

    a = [i for i in range(1000)]
    b = ["tag","bga","efd","rfh","esg","tyh"]
    c = [b[randint(0,5)] for i in range(1000)]
    d = [randint(0,1) for i in range(1000)]
    tmp = []
    for i in range(1000):
        tmp.append([a[i],c[i],d[i]])
    df = pd.DataFrame(tmp,columns=["a","b","label"])   # 造数据


    import lightgbm

    df["b"] = df["b"].astype('category')   # 必须有，不然报错
    cf = lightgbm.LGBMClassifier(max_depth=3)
    cf.fit(df[["a","b"]],df["label"],categorical_feature="b")  # 记得加上这个参数

    from sklearn.metrics import accuracy_score
    print(accuracy_score(df["label"].values, cf.predict(df[["a","b"]])))

就是这么easy！

gyl2016

关注

5
点赞
踩
30

收藏

觉得还不错? 一键收藏
8
评论
lightgbm模型处理类别型特征

类别型特征编码由于是字符串类型，所以一般需要经过编码处理转换成数值型。本文主要想说的是直接将字符串值传到lightgbm中训练。注意：xgboost模型也需要提前one-hot编码转换才能入模。下面是代码： a = [i for i in range(1000)] b = ["tag","bga","efd","rfh","esg","tyh"] c = [b[randint(0,5)] for i in range(1000)] d = [randint(0,1)
复制链接

扫一扫

专栏目录