概述
机器学习(Machine Learning)是从人工智能中产生的一个重要的学科分支,是实现智能化的关键。
基本术语
- 监督学习
通过给定的训练数据集进行训练,得到一个模型,当有新的数据到来时,可以根据模型对数据进行预测。
监督学习的训练集要求数据包含标签。 - 无监督学习
样本数据类别未知,需要根据样本见得相似性对样本集进行分类(聚类),使类内差距最小化,类间差距最大化。
无监督学习不需要数据有标签,也没有确定的结果。
监督学习必须由训练集和测试集,而无监督学习不需要训练集,只需要一组数据在其中找规律。 - 属性空间、样本空间、输入空间
所有属性的张成空间,即输入所有可能的集合。 - 特征向量
- 标记空间、输出空间
输出所有可能取值的集合。 - 假设
- 真相
- 学习器
- 分类,回归
- 二分类,多分类
- 正类,反类
- 未见样本(unseen instance)
- 未知“分布”
- 独立同分布(i.i.d.)
- 泛化(generalization)
学习过程 --> 在所有假设(hypothesis)组成的空间中进行搜索的过程
目标:找到与训练集“匹配”(fit)的假设
版本空间(version space): 与训练集一致的假设集合
机器学习算法在学习过程中更偏好于符合奥卡姆剃刀原则的类型假设,任何一个有效的机器学习算法必有其偏好,学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
NFL定理
一个算法若在某些问题上比另一个算法好,必存在另一些问题,另一个算法比这个算法好。
NFL定理的重要前提:
所有“问题”出现的机会相同、或所有问题同等重要;
实际情况并非如此;我们通常只关心自己正在试图解决的问题;
脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义。