一、机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。
Mitchell的定义:对于某类任务T和性能度量P,如果一个计算机程序在T上其性能P随着经验E而自我完善,那么我们称这个计算机程序从经验E中学习。
二、基本术语
例:假定我们有一批西瓜,(色泽=青绿;根蒂=蜷缩;敲声=浊响)(色泽=乌黑;根蒂=稍蜷;敲声=沉闷)······
相关名词:数据集,示例、样本,属性、特征,属性空间、样本空间、输入空间,特征向量,特征的维数,训练,训练集,预测,标记,样例,标记空间,测试,测试样本。
机器学习的任务大体分为两大类:监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表。
泛化(generalization)能力:我们希望在有限数据集上学得的模型能很好的适用于整个样本空间。
独立同分布(i.i.d):通常假设样本空间中全体样本服从于一个未知分布,我们获得的每个样本都是独立的从这个分布上采样获得的。independent and identically distributed
假设空间:拿分类任务来看,假设可以理解为我们假设该事物的一组特征值取值可以满足确定分类成功的需要,那么所有特征值取值的集合称为假设空间。西瓜有色泽,敲声,瓜蒂三个特征,每个特征有四种取值(a,b,c,空集),那么假设空间就有4*4*4+1这么大(1是指空集,即世界上根本没有要分类的这个类别存在)
归纳偏好:机器学习中对于某种假设类型具有特殊的偏好,称为归纳偏好(inductive bias),任何一个有效的机器学习算法必然都有其归纳偏好,否则无法产生确定的有意义的学习效果,会被“等效”的各个假设所迷惑。
(一)归纳原则——奥卡姆剃刀(Occam’s razor)
Occam’s razor是自然科学研究中最基本的原则,“若有多个假设与观察结果意志,则选用最简单的那个”,更平滑意味着更简单。
(二)没有免费的午餐定理——NFL(No Free Lunch Theorem)定理
对于某一个算法A,在一些问题上的表现优于算法B,必然存在某些问题的表现劣于算法B。
证明
于是有
即无论算法a有多聪明,b有多笨拙,他们的误差期望是相同的。证毕。
NFL定理出现的重要前提:所有问题出现机会相同,所有问题同等重要。但是实际情况并非如此!
NFL定理的意义是:脱离了问题本身,讨论哪种算法更好将没有任何意义。若考虑所有潜在问题,所有算法一样好,要谈论算法的优劣,必须要针对具体的学习问题。