sklearn是机器学习中的一个常用的python第三方模块,里面对机器学习的许多方法进行了封装,在进行机器学习的任务时,许多常用的算法可在这个模块中直接调用。并且sklearn中还提供了许多可用于分类、回归的优质数据集。使用好sklearn最直接的方法就是仔细阅读官方http://scikitlearn.org/stable/index.html
sklearn就像是一个模板库,是许多机器学习框架中的基础
首先import datasets在sklearn中加载你需要的数据集
from sklearn import datasets #从sklearn中导入其自带的优质数据集
import numpy as np
import matplotlib.pyplot as plt
'''
例如:
iris=datasets.load_iris() #使用其中的鸢尾花数据集(分类)
X=iris.data #得到数据的特征集,该数据集有四个特征:花萼长、宽和花瓣长、宽
Y=iris.target #该数据的标签集
'''
boston=datasets.load_boston() #波士顿房价数据集(506*13,回归)
#print boston.DESCR #可以查看sklearn数据集的一些属性
X=boston.data #数据有506条,每条数据有十三个特征和一个真实值
Y=boston.target
自己可以将得到的数据集手动划分得到需要的训练集和测试集