一、利用scikit-learn提供的函数进行运算
在下面这个示例中,我们会更多的使用仅属于Scikit-Learn中的函数来完成任务。
下面这个例子中的数据源于1936年统计学领域的一代宗师费希尔发表的一篇重要论文。彼时他收集了三种鸢尾花(分别标记为setosa、versicolor和virginica)的花萼和花瓣数据。包括花萼的长度和宽度,以及花瓣的长度和宽度。我们将根据这四个特征(中的两个)来建立Logistic Regression模型从而实现对三种鸢尾花的分类判别任务。
首先我们引入一些必要的头文件,然后读入数据(注意:仅仅使用前两个特征)
import numpy as np
from sklearn import datasets,linear_model #数据集,线性模型
from sklearn.cross_validation import train_test_split #交叉验证
from sklearn.metrics import accuracy_score,classification_report #对结果进行评估
iris = datasets.load_iris() #读入数据集
X = iris.data[:,:2] #获取样本数据
Y = iris.target #获取样本标签
for i in range(5): #打印样本数据,以便于进行查看数据
print(X[i],Y[i])
作为演示,我们来提取其中的前5行数据(包括特征和标签),输出如下。前面我们提到数据中共包含三种鸢尾花(分别标记为setosa、versicolor和virginica)