【scikit-learn】如何进行模型参数的选择

最新推荐文章于 2024-09-11 00:24:17 发布

JasonDing1354

最新推荐文章于 2024-09-11 00:24:17 发布

阅读量8.7k

点赞数 1

分类专栏：【ML Experiments】机器学习实验文章标签： scikit-learn 机器学习实验

本文链接：https://blog.csdn.net/JasonDing1354/article/details/46239689

版权

本文探讨了在scikit-learn中如何选择模型和参数，通过使用整个数据集进行训练和测试，发现训练准确率可能过高导致过拟合。接着介绍了使用训练集和测试集分离的方式，以及KNN算法的K值选择，强调测试准确率的重要性。最后，提到了K折交叉检验作为更可靠的模型评估方法，以降低方差并提高泛化能力。

摘要由CSDN通过智能技术生成

内容概要

这一节我们介绍以下几个内容：

我们该怎样选择模型用于监督学习任务？
我们该如何选择调整得到最好的模型参数？
我们该如何对测试数据进行预测估计？

1. 使用整个数据集进行训练和测试

这里我们使用手中的整个数据集来训练模型
使用同样的数据集来测试模型，然后评估预测的结果和真实结果的差别

    In [1]: 
  

from sklearn.datasets import load_iris
iris = load_iris()

# create X(features) and y(response)
X = iris.data
y = iris.target

Logistic regression

    In [2]: 
  

from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()

logreg.fit(X, y)
y_pred = logreg.predict(X)
print "predicted response:\n",y_pred

predicted response:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1 1
 1 1 1 1 1 1 1 1 1 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

    In [3]: 
  

len(y_pred)

      Out[3]: 
    

分类准确率

现在我们需要使用一种度量方式来评价我们的模型的运行情况，我们使用正确预测的比例来作为评估的度量(evaluation metric)。

    In [4]: 
  

from sklearn import metrics
print metrics.accuracy_score(y, y_pred)

0.96

以上说明对于训练的数据，我们有96%的数据预测正确。这里我们使用相同的数据来训练和预测，使用的度量称其为训练准确度。

最低0.47元/天解锁文章

JasonDing1354

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录