手把手丨我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病（三）

最新推荐文章于 2023-03-19 11:11:25 发布

dbmmn64000

最新推荐文章于 2023-03-19 11:11:25 发布

阅读量1k

点赞数 1

文章标签：人工智能数据库数据结构与算法

原文链接：http://www.cnblogs.com/jlutiger/p/9009348.html

版权

本文通过对比梯度提升、支持向量机和深度学习在糖尿病数据集上的应用，探讨了模型过拟合、参数调整对预测性能的影响。在支持向量机和深度学习中，数据预处理和参数优化显著提高了测试集的准确性，最终确定了标准化数据后的默认参数深度学习模型为最佳模型。

摘要由CSDN通过智能技术生成

梯度提升：

from sklearn.ensemble import GradientBoostingClassifier
gb=GradientBoostingClassifier(random_state=0)
gb.fit(x_train,y_train)
print("Accuracy on training set:{:.3f}".format(gb.score(x_train,y_train)))
print("Accuracy on test set:{:.3f}".format(gb.score(x_test,y_test)))

Accuracy on training set:0.917

Accuracy on test set:0.792

我们可能是过拟合了。为了降低这种过拟合，我们可以通过限制最大深度或降低学习速率来进行更强的修剪:

gb1=GradientBoostingClassifier(random_state=0,max_depth=1)
gb1.fit(x_train,y_train)
print("Accuracy on training set:{:.3f}".format(gb1.score(x_train,y_train)))
print("Accuracy on test set:{:.3f}".format(gb1.score(x_test,y_test)))

Accuracy on training set:0.804

Accuracy on test set:0.781

gb2=GradientBoostingClassifier(random_state=0,learning_rate=0.01)
gb2.fit(x_train,y_train)
print("Accuracy on training set:{:.3f}".format(gb2.score(x_train,y_train)))
print("Accuracy on test set:{:.3f}".format(gb2.score(x_test,y_tes