决策树是一种主要应用于数据分类场景的算法。它是一个树形结构,其中每个节点代表要素,每个边缘代表所做出的决策。从根节点开始,我们继续评估分类特征,并决定遵循特定的优势。每当有新数据点出现时,都会反复应用相同的方法,然后在研究所有必需的特征或将其应用于分类方案时得出最终结论。因此,决策树算法是一种监督学习模型,用于预测具有一系列训练变量的因变量。
示例
我们将获取kaggle提供的药物测试数据。第一步,我们将使用pandas从csv文件读取数据,并查看其内容和结构。import pandas as pd
datainput = pd.read_csv("drug.csv", delimiter=",") #https://www.kaggle.com/gangliu/drugsets
print(datainput)
运行上面的代码将为我们提供以下结果:Age Sex BP Cholesterol Na_to_K Drug
0 23 F HIGH HIGH 25.355 drugY
1 47 M LOW HIGH 13.093 drugC
2 47 M LOW HIGH 10.114 drugC
3 28 F NORMAL HIGH 7.798 drugX
4 61 F LOW HIGH 18.043 drugY
.. ... .. ... ... ... ...
195 56 F LOW HIGH 11.567 drugC
196 16 M LOW HIGH 12.006 drugC