一般来说,机器学习问题可以这样来理解:我们有n个 样本 (sample)的数据集,想要预测未知数据的属性。如果描述每个样本的数字不只一个,比如一个多维的条目(也叫做 多变量数据 (multivariate data)),那么这个样本就有多个属性或者 特征 。
我们可以将机器学习问题分为两大类——监督学习(supervise learning)和无监督学习(unsupervise learning):
监督学习和无监督学习最根本的差别就是在训练时加入的数据是否是标记的
- 有监督学习(supervised learning)是指数据中包括了我们想预测的属性,有监督学习问题有以下两类:
- 分类(classification):样本属于两个或多个类别,我们希望通过从已标记类别的数据学习,来预测未标记数据的分类。例如,识别手写数字就是一个分类问题,其目标是将每个输入向量对应到有穷的数字类别。从另一种角度来思考,分类是一种有监督学习的离散(相对于连续)形式,对于n个样本,一方有对应的有限个类别数量,另一方则试图标记样本并分配到正确的类别。
- 回归(regression):如果希望的输出是一个或多个连续的变量,那么这项任务被称作回归,比如用来预测房价,这是一个很经典的问题。
- 无监督学习(unsupervised learning)的训练数据包括了输入向量X的集合,但没有相对应的目标变量。这类问题的目标可以是发掘数据中相似样本的分组,被称作聚类(Clustering);也可以是确定输入样本空间中的数据分布,被称作密度估计(density estimation);还可以是将数据从高维空间投射到两维或三维空间,以便进行数据可视化。
-
加载样例数据集
-
-
这个是一个加载莺尾花的数据集
-
后面我们将要学习scikit learning,并用它自带分类器和数据集做一些实验