sklearn中决策树处理类别特征_机器学习｜sklearn如何处理类别型特征？

最新推荐文章于 2023-02-23 21:56:31 发布

邓柯

最新推荐文章于 2023-02-23 21:56:31 发布

阅读量2.8k

点赞数 2

文章标签： sklearn中决策树处理类别特征

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28773055/article/details/113625967

版权

0 前言在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据(其实手写决策树和朴素贝叶斯可以处理文字，但是sklearn中规定必须导入数值型)。然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历...

摘要由CSDN通过智能技术生成

0 前言

在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据(其实手写决策树和朴素贝叶斯可以处理文字，但是sklearn中规定必须导入数值型)。

然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历的取值可以是["小学"，“初中”，“高中”，"大学"]，付费方式可能包含["支付宝"，“现金”，“微信”]等等。在这种情况下，为了让数据适应算法和库，我们必须将数据进行编码，即是说，将文字型数据转换为数值型。

1 类别型特征分类

并不是所有的类别型特征都能统一的转换为数值型，在转换之前要先对类别进行一个分析，总体来说，类别型特征可以分为定类变量、定序变量、定距变量和定比变量。

定类变量：如性别（男、女、其他），三种取值之间是相互独立的，彼此之间完全没有关系，这种变量称之为名义变量。
定序变量：如学历࿰

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
sklearn中决策树处理类别特征_机器学习｜sklearn如何处理类别型特征？

0 前言在机器学习中，大多数算法，譬如逻辑回归，支持向量机SVM，k近邻算法等都只能够处理数值型数据，不能处理文字，在sklearn当中，除了专用来处理文字的算法，其他算法在fit的时候全部要求输入数组或矩阵，也不能够导入文字型数据(其实手写决策树和朴素贝叶斯可以处理文字，但是sklearn中规定必须导入数值型)。然而在现实中，许多标签和特征在数据收集完毕的时候，都不是以数字来表现的。比如说，学历...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。