🌟 决策树算法实战:葡萄酒品质预测 🍷
Hey小伙伴们,今天我们将通过一个有趣的案例来探索决策树算法在葡萄酒品质预测中的应用。想象一下,只需几个关键指标,就能预测一瓶葡萄酒的品质,是不是很神奇呢?让我们一起用Python和决策树算法,揭开葡萄酒的秘密吧!🍷
📊 数据集介绍
我们将使用著名的UCI Machine Learning Repository中的“葡萄酒品质”数据集。这个数据集包含了葡萄酒的各种化学成分和物理特性,以及专业品酒师给出的品质评分。我们的目标是根据这些特性预测葡萄酒的品质。
✒️数据预处理代码:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
# 加载数据
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
data = pd.read_csv(url, sep=';')
# 分割特征和标签
X = data.drop('quality', axis=1)
y = data['quality']
# 标准化特征
scaler = StandardScaler()
X = scaler.fit_transform(X)
# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
🎯 构建决策树模型
接下来,我们将使用Scikit-Learn库中的DecisionTreeClassifier
来构建决策树模型。为了简化问题,我们将葡萄酒的品质分为三个等级:低(3)、中(5)、高(8)。
✒️模型构建与训练代码:
# 将品质标签简化为三个等级
y_train_bin = y_train.apply(lambda x: 3 if x <= 5 else (5 if x == 6 else 8))
y_test_bin = y_test.apply(lambda x: 3 if x <= 5 else (5 if x == 6 else 8))
# 创建决策树模型,使用网格搜索法寻找超参数
dtree = DecisionTreeClassifier(criterion='entropy',splitter='best',max_depth=16,min_samples_split=7,
min_samples_leaf=2, max_features=10,random_state=42)
# 训练模型
dtree.fit(X_train, y_train_bin)
🎉 模型评估与预测
训练完模型后,我们需要评估模型的性能,并用它来进行预测。我们将使用混淆矩阵和分类报告来详细了解模型的表现。
✒️模型评估与预测代码:
# 预测
y_pred = dtree.predict(X_test)
# 评估模型
print(confusion_matrix(y_test_bin, y_pred))
print(classification_report(y_test_bin, y_pred))
执行结果:
📚 总结:决策树的力量
通过这次实战,我们不仅学会了如何用Python和决策树算法处理和分析葡萄酒数据,还深入了解了决策树模型在预测分类问题中的强大能力。决策树不仅能够提供预测结果,还能帮助我们理解哪些特征对葡萄酒品质的影响最大,这对于葡萄酒生产商和消费者来说,都是非常有价值的。
🏷️ #机器学习实战 #决策树算法 #葡萄酒品质预测
✨ Keep learning, stay curious! ✨
如果你喜欢我的文章,请关注我,点赞并收藏,我会带来更多有趣、有用的编程知识和人工智能经验分享!🚀
🏷️ #编程学习 #机器学习 #Python实战