统计学习
统计学习是关于计算机 基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。总的来说,统计学习也称为统计机器学习。
统计学习的特点
-
以计算机以及网络为平台;
-
以数据为对象,是数据驱动的学科;
-
目的是对数据进行预测和分析;
-
以方法为中心,构建模型并应用模型进行预测和分析;
-
是概率论、统计学、信息论、计算理论、最优化理论以及计算机科学等多个领域的交叉学科,具有独立的理论体系和方法论。
统计学习的对象
统计学习的对象是数据(Data).从数据出发,提取数据特征,抽象出数学模型,发现数学中的知识,又回到对数据分析和预测中去。数据是多样的,包括存在计算机上的一些数字、图片、音频等。
统计学习的方法
方法
-
监督学习:监督学习的任务就是学习一个模型,使得模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
-
非监督学习
-
半监督学习
-
强化学习
统计学习三要素
-
模型——Model
-
策略——Strategy
-
算法——Algorithm
模型
统计学习首要考虑的问题就是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能条件概率分布或者决策函数。
策略
1.损失函数和风险函数
监督学习问题实在假设空间中选取模型作为决策函数,对于给定的输入X,由函数给出相应的输出Y,这个输出的值可能和预测值不一样。用一个损失函数或者代价函数来度量预测的错误的程度。统计学习常用的损失函数有如下几种:
-
0-1损失函数
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y,f(X)) = \left\{ \begin{aligned} 1 & , & Y \neq f(X) \\ 0 & , & Y = f(X) \end{aligned} \right. L(Y,f(X))={ 10,,Y=f(X)Y=f(X) -
平方损失函数
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y,f(X)) =(Y-f(X))^2 L(Y,f(X))=(Y−f(X))2 -
绝对损失函数
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y,f(X)) = | Y - f(X)| L(Y,f(X))=∣Y−f(X)∣ -
对数损失函数或者对数似然损失函数
L ( Y , f ( X ) ) = − lg P ( Y ∣ X ) L(Y,f(X)) = -\lg P(Y|X) L(Y,f(X))=−lgP(Y∣X)
损失函数值越小,说明模型越好。由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:
R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x × y L ( y , f ( x ) ) P ( x , y ) d x d y R_{exp}(f) = E_p[L(Y,f(X))]=\int_{x\times y} L(y,f(x))P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdy
这称为风险函数或者期望损失(Expected Loss)。但是在实际情况下,由于联合分布P(X,Y)是未知的,期望损失还是难以计算的。此时需要计算经验风险,也即是模型关于选练级的平均损失,当样本容量趋于无穷大时,经验风险时趋近于期望风险。实际上,这也是统计学习方法中的两种策略:经验风险最小化和结构风险最小化。经验风险最小化和结构最小化
经验风险最小化(empirical risk minimization,ERM)策略表示经验风险最小的模型是最优的模型。即:
min f ϵ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min \limits_{f \epsilon F} \frac{1}{N} \sum^N_{i=1} L(y_i,f(x_i)) fϵFminN1i=1∑NL(yi,f(xi))
当样本容量较大时,经验风险最小化能提供一个很好的效果,但是当样本容量过小时,模型容易出现“过拟合”的现象。此时需要考虑结构风险最小化(structural risk minimization,SRM),它是为了防止过拟合而提出来的策略。结构风险最小化等于正则化。结构风险需要在经验风险上再加上正则化项或者惩罚项,可定义如下:经 验 风 险 : R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) 结 构 风 险 : R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) 经验风险: R_{emp}(f)= \frac{1}{N} \sum^N_{i=1} L(y_i,f(x_i)) \\ 结构风险: R_{srm}(f) = \frac{1}{N} \sum^N_{i=1} L(y_i,f(x_i)) + \lambda J(f) 经验风险:Remp(f)=N1i=1∑NL(yi,f(xi))结构风险:Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
其中J(f)表示模型的复杂度。复杂度表示了对复杂模型的惩罚。如贝叶斯估计就是最好的结构最小化策略的例子。
最终的问题编程求解最优解问题:
min f ϵ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min \limits_{f \ep