学习笔记
统计学习(统计机器学习)是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。
统计学习分类:
(1)监督学习(supervised learning)
(2)非监督学习(unsupervised learning)
(3)半监督学(semi-unsupervised learning)
(4)强化学习(reinforcement learning)统计学习方法(三要素):
(1)模型的假设空间(模型)
假设空间可以定义为决策函数的集合
F={ f|Y=f(X)} F = { f | Y = f ( X ) }
也可以定义为条件概率集合
F={ P|P(Y|X)} F = { P | P ( Y | X ) }
(2)模型选择的准则(策略)
(3)模型学习的算法(算法)监督学习
从给定有限的训练数据出发,假设数据是独立分布的。而且模型属于某个假设空间,应用某一评价准则,从假设空间中选取一个最优的模型,使它对已给训练数据及未知测试数据在给定评价标准意义下有最准确的预测。损失函数
(1)0-1损失函数
L(Y,f(X))={ 1,0,Y≠f(X)Y=f(X) L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X )
(2)平方损失函数
L(Y,f(X))=(Y−f(X))2 L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2
(3)绝对损失函数
L(Y,f(X))=|Y−f(X)| L ( Y , f ( X ) ) = | Y − f ( X ) |
(4)对数损失函数
L(Y,P(Y|X)=−logP(Y|X) L ( Y , P ( Y | X ) = − l o g P ( Y | X )期望损失(风险函数):理论上模型 f(X) f ( X ) 关于联合分布 P(X,Y) P ( X , Y ) 的平均意义下的损失。
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y经验损失(经验风险):模型 f(X) f ( X ) 关于训练集的平均损失。
Remp=1N∑i=0NL(yi,f(xi)) R e m p = 1 N ∑ i = 0 N L ( y i , f ( x i ) )经验风险最小化(emprical risk minimization, ERM):经验风险最小的模型是最优的模型。即求解最优化问题:
minf∈F1N∑i=0NL(<