统计学习方法之基本概念

1.变量的表示     

在监督学习过程中,将输入与输出看做是定义在输入空间与输出空间上的随机变量的取值,输入、输出变量用大写字母表示,习惯上输入用X,输出用Y表示。输入与输出变量所取得值用小写字母表示。输入变量的取值为x,输出变量的取值为y。一般情况下,向量均用列向量表示,如输入实例x的特征向量记作:

                                                                         x=(x^{(1)},x^{(2)},x^{(3)}.....x^{(n)})^{T}

x^{(i)}表示x的第i个特征,用x_{i}表示多个输入变量中的第i个。

2.假设空间

模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。

3.统计学三要素

                                                                               方法=模型+策略+算法 

3.1.模型

监督学习可以是概率模型或非概率模型,由条件概率P(X|Y)或决策函数Y=f(X)及其参数表示。

3.2.策略

有了模型,就需要考虑学习器依照什么样的策略选择最优模型。

损失函数:损失函数度量模型一次预测性能的好坏,用L(Y,f(X))表示,如平方损失函数:

                                                                             L(Y,f(X))=(Y-f(X))^{2}

          风险函数:度量平均意义下模型预测性能的好坏,:

                                                          R_{exp}(f)=E_{p}[L(Y,f(X))]=\int L(y,f(x))P(x,y)dxdy

经验风险:期望是相对于变量总体而言的,但我们通常只有样本数据,因此实际上我们得到的风险函数,通常是经验风险,假设对于给定的数据集:

                                                        T={(x_{1},y_{1}),(x_{2},y_{2}),(x_{3},y_{3}),...,(x_{N},y_{N})}

 

经验风险记作:

                                                                       R_{exp}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))

期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本的平均损失,根据大数定律,当样本容量趋于无穷时,经验风险趋于期望风险。但实际中样本数量有限,所以要采用经验风险最小化和结构风险最小化来对经验风险进行一定的矫正。

当样本容量较大时,经验风险最小化的策略认为,经验风险最小的模型是最优模型,所以求解模型就是求解最优化问题。

                                                                    min R_{exp}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))

样本容量较小时,经验风险最小化容易产生过拟合,此时,采用结构风险最小化策略,等价于正则化,其在经验风险基础上加入惩罚项:

                                                                min R_{srm}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i}))+\lambda J(f)

J(f)表示模型复杂度,一般是单调递增函数,模型越复杂,J(f)越大,\lambda\geq 0。因此结构风险最小,需要经验风险和复杂度同时小。正则化项可以取不同的形式,例如在回归问题中,损失函数是平方损失,正则化项可以是参数向量L_{2}范数  \parallel w\parallel

                                                             L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_{i};w)-y_{i})^{2}+\frac{\lambda }{2}\parallel w\parallel ^{2}

3.3 算法

具体求解最优化问题的方法步骤就是算法。

参考:

李航. 统计学习方法[M]. 清华大学出版社, 2012.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值