sklearn是Python语言的机器学习工具
sklearn是做特征工程(做模型调算法)最常用也是最好用的工具没有之一。
Scikit-learn包括许多知名的机器学习算法的实现(算法原理一定要懂)
Scikit-learn文档完善,容易上手,封装的好,丰富的API,建立模型简单,预测简单,使其在学术界颇受欢迎。
Scikit-learn缺点:算法过程无法看到,有些参数都在算法Api内部优化,无法手动调参。(相对比的,tensorflow的Api有的封装的高,有的封装的低,可以手动调参。比如Scikit-learn的线性回归梯度下降法无法手动调α学习率大小,而tensorflow可以手动调节)
一、scikit-learn数据集
1、scikit-learn获取数据集
sklearn.datasets是scikit-learn获取数据集的api,加载获取流行数据集
load和fetch返回的数据类型datasets.base.Bunch(字典格式)
- data:特征数据数组,是 [n_samples * n_features] 的二维numpy.ndarray 数组