@sklearn使用pd数据集进行训练模型
读取数据
sklearn训练数据时需要有特征行和类别行,有时候经过pd处理的数据集无法直接满足需求。
代码示例
处理数据代码如下:
import pandas as pd
data=pd.DataFrame({'特征1':[1,2,3],'特征2':[3,2,1],'类别':[4,5,6]})
print(data)
x=data.iloc[:,:2].values
y=data.iloc[:,2].values
print(x)
print(y)
经过处理,提取pandas处理后的每个数据前两列作为特征,最后一列作为类别
绘制决策树时参数赋值:
dot_data=export_graphviz(dtc,out_file=None,feature_names['特征1','特征2'],class_names['4','5','6'],filled=True,rounded=True,special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_png('决策树.png')