以下是一个简单的机器学习入门实例,它使用 Python 的 Scikit-learn 库中的决策树分类算法,对鸢尾花数据集进行分类:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 加载数据集
iris = load_iris()
X = iris.data
y = iris.target
# 将数据集分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
# 创建一个决策树分类器
clf = DecisionTreeClassifier()
# 使用训练集训练分类器
clf.fit(X_train, y_train)
# 使用测试集进行预测
y_pred = clf.predict(X_test)
# 计算分类器的准确率
accuracy = accuracy_score(y_test, y_pred)
print("决策树分类器的准确率为:", accuracy)
这个实例中,首先使用 Scikit-learn 库中的 load_iris() 方法加载鸢尾花数据集,然后将数据集分成训练集和测试集。训练集占数据集的 70%,测试集占 30%。
然后,创建一个决策树分类器,使用训练集对分类器进行训练。训练完成后,使用测试集进行预测,得到预测结果 y_pred。
最后,使用 Scikit-learn 库中的 accuracy_score() 方法计算分类器的准确率,即预测结果与实际结果相符的比例。
这个实例中使用的决策树分类器是机器学习中比较常见的分类算法之一,鸢尾花数据集则是一个经典的数据集,常用于机器学习的入门练习。这个实例不仅展示了机器学习中的一些基本概念和操作,也提供了一个实际问题的解决方案。