内容概要
这一节我们介绍以下几个内容:
- 我们该怎样选择模型用于监督学习任务?
- 我们该如何选择调整得到最好的模型参数?
- 我们该如何对测试数据进行预测估计?
1. 使用整个数据集进行训练和测试
- 这里我们使用手中的整个数据集来训练模型
- 使用同样的数据集来测试模型,然后评估预测的结果和真实结果的差别
In [1]:
from sklearn.datasets import load_iris
iris = load_iris()
# create X(features) and y(response)
X = iris.data
y = iris.target
Logistic regression
In [2]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(X, y)
y_pred = logreg.predict(X)
print "predicted response:\n",y_pred
In [3]:
len(y_pred)
Out[3]:
分类准确率
现在我们需要使用一种度量方式来评价我们的模型的运行情况,我们使用正确预测的比例来作为评估的度量(evaluation metric)。
In [4]:
from sklearn import metrics
print metrics.accuracy_score(y, y_pred)
以上说明对于训练的数据,我们有96%的数据预测正确。这里我们使用相同的数据来训练和预测,使用的度量称其为训练准确度。