机器学习学习算法
学习算法主要分为两类:
- 监督学习:也称有导师学习,指使用的训练集training set有标记情况;若想预测的是离散值称为分类,反之连续值为回归。
- 无监督学习:也称无导师学习,指training set无标记信息,如聚类中将无标记数据集分为簇。
通常的机器学习是通过输入数据得到输出,将我们所得到的数据集分为训练集(training set)和测试集(testing set),前者用以训练,后者用以测试,并通常与ground-truth进行对比得出其性能判断指标,之后再用于预测新的或其他的实例。
假设空间:即所有假设所组成的空间;
版本空间:即对于训练集(training set)中的多个样本都能对应上关系的假设集合;
如表一中蜷缩可以代表好瓜,浊响也可,蜷缩和浊响三者都可代表好瓜。
归纳偏好:当出现数据集中未出现样例或符合多种情况,选择模型偏好的那个。如奥卡姆剃刀的最简单的原则。
最后是NFL定理,即No Free Lunch Theorem,天下没有免费的午餐定理。理论上论证时未考虑到实际情况,故实际中应考虑学习算法的归纳偏好与问题的匹配。
经验误差,过拟合与欠拟合,数据集D的三种划分方法,p与np问题。