sklearn是基于python语言的机器学习工具包,自带了大量的数据集,可供我们练习各种机器学习算法。 sklearn集成了数据预处理、数据特征选择、数据特征降维、分类\回归\聚类模型、模型评估等算法。
这里使用sklearn自带的鸢尾花数据集进行简单的决策树分类
# 导入需要用的包
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
# 加载鸢尾花数据集
iris = load_iris()
# 将数据集划分为训练集和测试集 X为样本数据,y为样本标签(target)
X_train,X_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.3, random_state= 42)
# 创造决策树分类器进行训练(用训练集)
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train,y_train)
# 在测试集上预测分类结果,并计算模型精度
score = clf.score(X_test,y_test)
print('Test Accuracy:',score)