输入空间、特征空间和输出空间
监督学习中,将输入与输出所有可能取值的集合称为输入空间与输出空间。
输入与输出空间可以是有限集合,也可以是整个欧式空间;二者可以是同一个空间,也可以是不同的空间;通常情况下,输出空间远小于输入空间。
每个具体输入是一个实例,由特征向量来表示,所有特征向量存在的空间为特征空间;特征空间的每一维就对应着一个特征。
联合概率分布
监督学习中假设输入与输出的随机变量X,Y遵循联合概率分布P(X,Y),虽假设这一联合概率分布存在,但对于学习系统来讲,其定义是未知的;训练数据和测试数据看作是依联合概率分布独立同分布产生的。
假设空间
机器学习的目的就是通过学习找到最好的由输入到输出的映射的模型,模型属于从输入空间到输出空间的映射的集合,即假设空间。
统计学习三要素
方法 = 模型 + 策略 + 算法
损失函数/代价函数
对于给定的输入X(这里X指的是向量), 输出的预测值f(X)与真实值Y可能一致也可能不一致,用损失函数(loss function)或代价函数(cost function)来度量,我们的希望是损失函数值越小越好。
0-1损失函数
L(Y,f(X)) = 1,Y!=f(X);0,Y=f(X)
均方损失函数
L(Y,f(X)) =(Y-f(X))^2
绝对损失函数
L(Y,f(X)) =|Y-f(X)|
对数似然损失函数
L(Y,P(Y|X))=-logP(Y|X)
风险函数/期望损失
即损失函数的期望(上面我们假设输入输出遵循联合概率分布P(X,Y))
E =L(y,f(x))P(x,y)dxdy的积分
经验风险/经验损失
R = 1/N*(L(yi,f(xi))求和)
我们的目的就是经验风险/经验损失最小化
即 arg min R, 求对应的参数
结构风险最小化
通常情况下我们为了经验风险最小,采取一定的措施后会发现,我们将模型过拟合了,导致模型的泛化能力变差
结构风险最小化是为了防止过拟合而提出的策略,另称正则化或者惩罚项。
min R+n*J(f) n>=0;
正则化
正则化项可以取不同的形式:回归问题,损失函数是平方损失,正则化项可以取参数向量w的二范式||w||^2;也可以取参数向量的一范式||w||
交叉验证
交叉验证的基本思想是重复使用数据,把给定的数据进行切分,并组合为训练集和测试集,在此基础上进行反复训练,测试和模型选择。
交叉验证方法比较简单却普遍采用,不一一介绍