数据
实例(instance)
每一条数据叫做实例,表示为x
数据集,集合
多条数据组成,表示为X
目标概念
待学习的结果或目标函数成为目标概念(target concept),表示为c
标记
代表某条数据确定的结果,表示为y
公式
c(x)=y
正例(positive example)
反例(negative example)
数据分类
训练集(training set/data)/训练样例(training examples)
用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例 (testing examples):
用来专门进行测试已经学习好的模型或者算法的数据集
数据属性
特征值(feature)
实例的某个属性
特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例
学习类型
有监督学习(supervised learning):
训练集有类别标记(class label)
无监督学习(unsupervised learning):
无类别标记(class label)
半监督学习(semi-supervised learning):
有类别标记的训练集 + 无标记的训练集
方法
分类 (classification)
目标标记为类别型数据(category)
回归(regression)
目标标记为连续性数值 (continuous numeric value)
机器学习步骤
- 把数据拆分为训练集和测试集
- 用训练集和训练集的特征向量来训练算法
- 用学习来的算法运用在测试集上来评估算法 (可能要设计到调整参数(parameter tuning), 用验证集(validation set)