sklearn处理有String类型的数据

qq_37411980

已于 2022-04-04 13:56:48 修改

阅读量3.4k

点赞数 3

文章标签： python sklearn

于 2022-04-04 13:55:48 首次发布

本文链接：https://blog.csdn.net/qq_37411980/article/details/123952666

版权

sklearn处理有String类型的数据

因为老师给的数据中既有数值型也有字符串类型的数据，用sklearn的时候会有"ValueError: could not convert string to float"的错误，意识到sklearn能直接处理的只有数值型的数据，花了一下午时间终于找到了一些一些解决方法。
附上链接：数据预处理
 sklearn的决策树能够处理字符串数据吗
 一个讨论帖

最后自己的实现代码如下：

import graphviz
import pandas as pd
from sklearn import tree
from sklearn.model_selection import train_test_split

filename = 'crx.data'
re = pd.read_csv(filename)
data = re.dropna(axis=0, how='any')

data_symbol = data.iloc[:, 0:15]
data_target = data.iloc[:, 15]
# d = pd.get_dummies(data, sparse=True)
# print(data_symbol)
# print(data_target)
symbol = pd.get_dummies(data_symbol, sparse=True)

Xtrain,Xtest,Ytrain,Ytest = train_test_split(symbol,data_target,test_size=0.3)
# print(Xtrain)
# print(Xtest)
clf = tree.DecisionTreeClassifier()

clf = clf.fit(Xtrain,Ytrain)
score = clf.score(Xtest,Ytest)


dot_data = tree.export_graphviz(clf
                                ,class_names=["+","-"]
                                ,filled=True
                                ,rounded=True)


graph = graphviz.Source(dot_data)

graph.view()

部分数据如下，col16为分类标签
在这里插入图片描述
最后的决策树：

感觉特征标签应该再定义一下，之后应该会不断改进

qq_37411980

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
sklearn处理有String类型的数据

sklearn处理有String类型的数据因为老师给的数据中既有数值型也有字符串类型的数据，用sklearn的时候会有"ValueError: could not convert string to float"的错误，意识到sklearn能直接处理的只有数值型的数据，花了一下午时间终于找到了一些一些解决方法。附上链接：数据预处理sklearn的决策树能够处理字符串数据吗一个讨论帖最后自己的实现代码如下：import graphvizimport pandas as pdfrom skl
复制链接

扫一扫