训练集:用来训练,产生模型或者算法的数据集
测试集:用来测试以及学习好的模型或者算法的数据集,假设只知道特征不知道结果,用模型得出的结果与已有的结果进行对比
特征向量:属性的集合,通常用向量来表示,与具体的实例有关。(影响结果的因素
有关)
标记 label:对结果类别的标记
正例:正面的结果,比如:是
反例:反面的结果,比如:否
分类问题 classification:目标标记为类别型数据,比如:是或者否
回归问题 regression:目标标记为连续型数值
有监督学习 supervised learning:训练集有类别标记,即训练时不知道标记(不知道结果)
无监督学习 unsupervised learning:无类别标记
半监督学习 semi-supervised learning: 有类别标记的训练集+无类别标记的训练集
机器学习步骤框架:
- 把数据拆分为训练集和测试集
- 用训练集和训练集的特征向量算法训练算法
- 用学习好的算法运用在测试集上来评估算法