机器学习问题:
监督学习:数据带有我们想要预测的附加属性(各个属性已知)
1. 分类:样本属于两个或更多类,从标记得数据训练并能预测出未标记的数据类别;另一个因素是,数据是离散的,我们想要使用正确的类别来标记这些数据。
2. 回归:期望输出是一个或多个连续变量,则使用回归方法。比如预测人身高和体重的函数关系。
非监督学习:训练数据由没有任何相应属性的一组输入向量x组成,我们想要训练出向量X的数据都属于什么类别。这种问题的目标可能是在数据中发现类似示例的组,称为聚类,或者确定输入空间内的数据分布,称为 密度估计。当向量X是高维数据时,使用(主成分分析)PCA,拉普拉斯映射,矩阵奇异值分解SVD等方法降至二或三维,容易分析,可以做到可视化。
训练集和测试集:训练集是我们用于模型训练的数据,测试集是我们用于检验模型的的数据。在数据有限的条件下,怎么分配训练集和测试集也是一个知识点。
一. 加载数据
加载内部数据
from sklearn import datasets
datasets里的数据都含有两个对象(n_samples, n_features), dataset.data和dataset.target, dataset.images使用.
(1). 加载波士顿房价数据集(regression):load_boston([return_X_y])
(2). 加载鸢尾属植物数据集(classification):load_iris([return_X_y])
(3). 加载糖尿病数据集(regression): load_diabetes([return_X_y])
(4). 加载digits数据集(classification): load_diabetes([return_X_y])
(5). load_linnerud([return_X_y]) :Load and return the linnerud dataset (multivariate regression).
(6). load_wine([return_X_y]): Load and return the wine dataset (classification).
(7). load_breast_cancer([return_X_y]): Load and return the breast cancer wisconsin dataset (classification).
(8). 加载图片数据集: load_sample_im