sklearn的决策树能够处理字符串数据吗吗？

最新推荐文章于 2024-05-15 19:26:08 发布

V丶Chao

最新推荐文章于 2024-05-15 19:26:08 发布

阅读量4.8k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/u011698800/article/details/111881265

版权

机器学习专栏收录该内容

43 篇文章 3 订阅

订阅专栏

20201229 -

引言

我记得很久之前我曾经遇到过这种问题，一开始我还很纳闷，一般情况下，输入到分类器的数据应该都是数值型的，对于字符串型的他应该处理不了，但是当时我却得出了结论，sklearn中的决策树，能够帮助我讲这些数据处理。

但是，我感觉，可能是有一些记忆的偏差。
那么这里就来具体描述一下。

问题

问题来源于，最近处理一部分数据的时候，因为数据中含有标签类型的数据，但是直接输入到决策树模型中，sklearn中居然报错了，很费解，因为基于我之前的认知，决策树应该帮我把这部分编码好了，而且从决策树的原理上来说，这部分也的却是能做的。所以我也是很纳闷。

解决

在搜索了相关的内容之后，看了这个问答[1]明白了，这是因为sklearn中的实现方式导致的，一般针对这种数据的处理就是进行编码，不管是label编码，或者独热编码都行。
但是在这篇介绍编码的文章[2]中，提到很多内容，例如基于树的分类器可以不用独热编码，因为树本质上就是一种独热编码，这篇文章后续还要更细致理解。

关于不同版本的决策树

决策树是比较经典的分类算法，而其中分为了不同的版本，我们常用的包括：ID3、C4.5、CART这三种，当然还有C5.0，C5.0是并不是开源的。最开始的时候，我一直理解他们之间的区别仅仅是在选择分治节点的时候，不同的函数而已，当时没有具体进行研究，最近做实验的时候突然看到了这部分的不同，特此进行记录。
ID3 C4.5 CART决策树原理及sklearn实现
 ID3、C4.5、C5.0、CART决策树区别
 ID3、C4.5、CART三种决策树的区别
 Decision Trees
在最后的sklearn文档中提到，sklearn使用的是CART，跟C4.5是非常相似的。
同时，在做实验的时候也提到了一个问题，ID3并不能直接处理连续性的数据，这部分在前面的几篇文章中都有体现。

参考

[1]strings as features in decision tree/random forest
[2]数据预处理：独热编码（One-Hot Encoding）和 LabelEncoder标签编码

V丶Chao

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
sklearn的决策树能够处理字符串数据吗吗？

20201229 -引言我记得很久之前我曾经遇到过这种问题，一开始我还很纳闷，一般情况下，输入到分类器的数据应该都是数值型的，对于字符串型的他应该处理不了，但是当时我却得出了结论，sklearn中的决策树，能够帮助我讲这些数据处理。但是，我感觉，可能是有一些记忆的偏差。那么这里就来具体描述一下。问题问题来源于，最近处理一部分数据的时候，因为数据中含有标签类型的数据，但是直接输入到决策树模型中，sklearn中居然报错了，很费解，因为基于我之前的认知，决策树应该帮我把这部分编码好了，而且从决策树的
复制链接

扫一扫

专栏目录