R语言中的one-hot编码实战

最新推荐文章于 2024-04-28 20:16:45 发布

Ron_Lee_sdj

最新推荐文章于 2024-04-28 20:16:45 发布

阅读量1.1w

点赞数 4

分类专栏：可视化 R 机器学习文章标签： tidyverse R one-hot

本文链接：https://blog.csdn.net/Ron_Lee_sdj/article/details/80772009

版权

当我们在使用xgboost或者lightgbm等机器学习包时，这些包的输入数据默认都是全数值形式的矩阵，但是我们的原始数据中有可能出现分类变量等非数值型变量，那么如何使用R放入数据包进行one-hot编码是一件很重要的事情

我们使用ggplot2中的diamonds数据集和R自带的model.matrix函数。

观察diamonds数据集：

Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 53940 obs. of 10 variables:
$ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
$ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
$ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
$ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
$ depth : num 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
$ table : num 55 61 65 58 58 57 57 55 61 61 ...
$ price : int 326 326 327 334 335 336 336 337 337 338 ...
$ x : num 3.95 3.89

最低0.47元/天解锁文章

Ron_Lee_sdj

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
4
评论
R语言中的one-hot编码实战

当我们在使用xgboost或者lightgbm等机器学习包时，这些包的输入数据默认都是全数值形式的矩阵，但是我们的原始数据中有可能出现分类变量等非数值型变量，那么如何使用R放入数据包进行one-hot编码是一件很重要的事情我们使用ggplot2中的diamonds数据集和R自带的model.matrix函数。观察diamonds数据集：Classes ‘tbl_df’, ‘tbl’ and 'da...
复制链接

扫一扫