1.变量的表示
在监督学习过程中,将输入与输出看做是定义在输入空间与输出空间上的随机变量的取值,输入、输出变量用大写字母表示,习惯上输入用X,输出用Y表示。输入与输出变量所取得值用小写字母表示。输入变量的取值为,输出变量的取值为。一般情况下,向量均用列向量表示,如输入实例x的特征向量记作:
用表示的第个特征,用表示多个输入变量中的第个。
2.假设空间
模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。
3.统计学三要素
方法=模型+策略+算法
3.1.模型
监督学习可以是概率模型或非概率模型,由条件概率或决策函数及其参数表示。
3.2.策略
有了模型,就需要考虑学习器依照什么样的策略选择最优模型。
损失函数:损失函数度量模型一次预测性能的好坏,用表示,如平方损失函数:
风险函数:度量平均意义下模型预测性能的好坏,:
经验风险:期望是相对于变量总体而言的,但我们通常只有样本数据,因此实际上我们得到的风险函数,通常是经验风险,假设对于给定的数据集:
经验风险记作:
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本的平均损失,根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。但实际中样本数量有限,所以要采用经验风险最小化和结构风险最小化来对经验风险进行一定的矫正。
当样本容量较大时,经验风险最小化的策略认为,经验风险最小的模型是最优模型,所以求解模型就是求解最优化问题。
样本容量较小时,经验风险最小化容易产生过拟合,此时,采用结构风险最小化策略,等价于正则化,其在经验风险基础上加入惩罚项:
表示模型复杂度,一般是单调递增函数,模型越复杂,越大,。因此结构风险最小,需要经验风险和复杂度同时小。正则化项可以取不同的形式,例如在回归问题中,损失函数是平方损失,正则化项可以是参数向量的范数
3.3 算法
具体求解最优化问题的方法步骤就是算法。
参考:
李航. 统计学习方法[M]. 清华大学出版社, 2012.