统计学习方法笔记(一)
1.1实现统计学习方法的步骤
1.得到一个有限的训练数据集。
2.确定包含所有可能的模型的假设空间,即学习模型的集合。
3.确定模型选择的准则,即学习策略。
4.实现求解最优模型的算法,即学习方法。
5.通过学习方法选择最优化模型。
6.利用学习的最优化模型对数据进行预测或分析。
1.2监督学习
输入变量与输出变量
(表示方法按主流表示)
1.特征向量: x=(x1 ,x2,...xn)T x = ( x 1 , x 2 , . . . x n ) T
2. x(i) x ( i ) 表示第i个输入实例: x(i)=(x(i)1,x(i)2...x(i)n)T x ( i ) = ( x 1 ( i ) , x 2 ( i ) . . . x n ( i ) ) T
3.训练集表示为: T=(x(1),y1),(x(2),y2)...(x(n),yn) T = ( x ( 1 ) , y 1 ) , ( x ( 2 ) , y 2 ) . . . ( x ( n ) , y n )
4.输入变量与输出变量写作:X,Y; 其取的值写作:x,y。
问题类型
样本:测试数据由输入和输出组对组成,输入与输出对又称为样本。
回归问题:输入变量与输出变量均为连续变量的预测问题。
分类问题:输入变量与输出变量均为有限个离散变量的预测问题。
标注问题:输入变量与输出变量均为变量序列的预测问题。
联合概率分布
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。此为监督学习的基本假设。
假设空间
输入空间到输出空间的映射的集合,就是假设空间。
监督学习的模型可以为概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y= f(X) f ( X ) 表示,具体值预测写作P(y|x)或 y=f(x) y = f ( x ) 。
1.3统计学习三要素
方法=模型+策略+算法
模型
所要学习的条件概率分布或决策函数==模型 ⊆ ⊆ 模型假设空间
令假设空间为 ϝ ϝ ,参数向量 θ θ 取值于n维欧式空间 Rn R n ,称为参数空间。
假设空间可以定义为决策函数的集合:
ϝ ϝ ={ f f |= f(X) f ( X ) }
X和Y是定义在输入空间 χ χ 和输出空间 γ γ 上的变量,这时 ϝ ϝ 通常是由一个参数向量决定的函数族:
ϝ= ϝ = { f|Y=fθ(X),θ∈Rn f | Y = f θ ( X ) , θ ∈ R n }
假设空间也可以定义为条件概率的集合
ϝ ϝ ={ P|P(Y|X) P | P ( Y | X ) }
X和Y是定义在输入空间 χ χ 和输出空间 γ γ 上的变量,这时 ϝ ϝ 通常是由一个参数向量决定的条件分布族:
ϝ ϝ ={ P|Pθ(Y|X),θ∈Rn P | P θ ( Y | X ) , θ ∈ R n }
策略
损失函数度量模型预测一次的好坏
风险函数度量平均意义下模型预测的好坏
监督学习问题是在假设空间中 ϝ ϝ 中选取模型 f f 作为决策函数,给定的输入X,由给定输出Y,这个输出的预测值 f(X) f ( X ) 与真实值Y会有所误差,用一个损失函数或代价函数来度量预测错误的程度,损失函数 f(X) f ( X ) 和Y的非负实值函数记作L(Y, f(X) f ( X ) )。
常用损失函数:
1.0-1损失函数
L(Y, f(X) f ( X ) )=
2.平方损失函数
L(Y, f(X) f ( X ) )=(Y- f(X) f ( X ) ) 2 2
3.绝对损失函数
L(Y, f(X) f ( X ) )= |Y−f(X)| | Y − f ( X ) |
4.对数损失函数或对数似然损失函数
L(Y,P(Y|X))= −logP(Y|X) − l o g P ( Y | X )
经验风险:
通过损失函数我们可以得到对于单个样本的预测能力,对于训练样本集中所有数据的预测可以通过累加得到再取平均值,这就是经验风险:
Remp(f)=1N∑Ni=1L(y(i),f(x(i)) R e m p ( f ) = 1 N ∑ i = 1 N L ( y ( i ) , f ( x ( i ) )
期望风险:
当样本容量足够时,经验风险越小则说明对于训练集数据的拟合程度越好,由于未知样本的数量不知,无法采取平均值的方式求得。这里假设X,Y服从联合分布P(X,Y),期望风险可表示为:
Rexp(f)=Ep[L(Y,f(x))]=∫xyL(y,f(x))P(x,y)dxdy R e x p ( f ) = E p [ L ( Y , f ( x ) ) ] = ∫ x y L ( y , f ( x ) ) P ( x , y ) d x d y
结构风险:
但是由于联合分布函数P(X,Y)是很难求得的。所以期望风险是不容易得到的。但是如果采用经验风险来代替期望风险,当训练集数据过小时有可能出现过度拟合的问题,即决策函数对于训练集几乎全部拟合,但是对于测试集拟合效果过差,于是·这里又引入结构风险:
Rsrm(f)=1N∑Ni=1l(y(i),f(x(i)))+λJ(f) R s r m ( f ) = 1 N ∑ i = 1 N l ( y ( i ) , f ( x ( i ) ) ) + λ J ( f )
经验风险越小,模型决策函数越复杂,包含参数越多,拟合效果越好,但是到一定程度又容易出现过度拟合的问题,这里引入正则化项,其中λ是参数, J(f) J ( f ) 表示模型复杂度,通过降低模型复杂度来防止过拟合的出现,即 λJ(f) λ J ( f ) 的值最小化,因为经验风险目的是求的最小化,正则化目的也是求取最小化,因此这里将两者相加来求取最小化,即可得结构风险。
经验风险是局部概念,针对训练样本的损失函数,可求得。
期望风险是全局概念,针对未知测试样本的损失函数,不可求得。
结构风险是两者的折中处理,是经验风险和正则化的加和。
算法
算法是只学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑求解最优模型的计算方法。
即:统计学习方法为求解最优解的方法。