引言
一直对AI有着莫大的兴趣,最近买了周志华先生的西瓜书,也是干货满满,最近也想从实战方面入手,了解一下机器学习,本文以《Python机器学习基础教程》为指导。
环境
Sublimetext 3 和 Jupter Notebook;
ML库:scikit-learn
项目:鸢尾花分类
已知,鸢尾花可以被分为setosa、versicolor、virginica三个品种,现在我们要建立一个模型,输入特定数据判定它是属于哪一类。
一、数据集导入:
数据集在scikit-learn的datasets中,调用load_iris()导入:
from sklearn.datasets import load_iris
iris_dataset=load_iris()
二、训练集和测试集
导入的数据集我们要分为训练集和测试集,一般我们采用3:1的随机分配办法;
而拆分时为了数据分布均匀,我们先要对数据进行随机达伦,确保测试数据和训练数据的全面性;
在scikit-learn中,我们可以调用train_test_split函数实现划分,利用random_state指定随机数生成种子即可。