2018/5/31
基本术语
标记:关于样本结果的信息,例如好瓜
样例:拥有标记信息的示例 和样本有区别
分类:预测的是离散值,例如好瓜,坏瓜,此类学习任务
回归:预测的是连续值,例如西瓜成熟度0.95,0.37
泛化能力:学得模型适用于新样本的能力
特征向量:因为样本属性可以张成一个属性空间,而每个样本都在这个属性空间里面能被表示,所以我们也用特征向量来表示一个样本
假设:学得模型对应了关于数据的某种潜在规律,也可以理解为学习模型。
归纳:从特殊到一般的泛化过程,机器学习就是归纳,从样例中学习。
演绎:从一般到特殊的特化过程。
假设空间:就是所有假设组成的空间。意义就是在假设空间搜索最终获得与训练集一致的假设,这就是我们学得的结果
版本空间:存在多个假设与训练集一致的的假设集合。
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
NFL定理(No Free Lunch) 天下没有免费的午餐,换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)。举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。其结果是,在用给定的测试集来评估性能并挑选算法时,你应当根据具体的问题来采用不同的算法。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。