【scikit-learn】如何进行模型参数的选择

本文探讨了在scikit-learn中如何选择模型和参数,通过使用整个数据集进行训练和测试,发现训练准确率可能过高导致过拟合。接着介绍了使用训练集和测试集分离的方式,以及KNN算法的K值选择,强调测试准确率的重要性。最后,提到了K折交叉检验作为更可靠的模型评估方法,以降低方差并提高泛化能力。
摘要由CSDN通过智能技术生成

内容概要

这一节我们介绍以下几个内容:

  • 我们该怎样选择模型用于监督学习任务?
  • 我们该如何选择调整得到最好的模型参数?
  • 我们该如何对测试数据进行预测估计?

1. 使用整个数据集进行训练和测试

  • 这里我们使用手中的整个数据集来训练模型
  • 使用同样的数据集来测试模型,然后评估预测的结果和真实结果的差别
In [1]:
from sklearn.datasets import load_iris
iris = load_iris()

# create X(features) and y(response)
X = iris.data
y = iris.target

Logistic regression

In [2]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

logreg.fit(X, y)
y_pred = logreg.predict(X)
print "predicted response:\n",y_pred
predicted response:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1
 1 1 1 1 1 1 1 1 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
In [3]:
len(y_pred)
Out[3]:
150

分类准确率

现在我们需要使用一种度量方式来评价我们的模型的运行情况,我们使用正确预测的比例来作为评估的度量(evaluation metric)。

In [4]:
from sklearn import metrics
print metrics.accuracy_score(y, y_pred)
0.96

以上说明对于训练的数据,我们有96%的数据预测正确。这里我们使用相同的数据来训练和预测,使用的度量称其为训练准确度

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值