一.基本概念
统计学习的对象是数据
1.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,所以可以用概率统计方法来加以处理(服从XX分布)
2.输入空间,输出空间,特征空间,空间可以是有限元素的集合,也可以是整个欧式空间
欧式空间与非欧式空间的区别:
一条直线L和不在L上的点P,经过P点平行于L的线有几条?
在欧式空间中,这个问题显然是“只有一条”,然而在非欧空间中,这个问题就不一定了。马鞍形的双曲抛物面,就是一个非欧空间的例子。
3.输入与输出称为样本(sample),输入与输出均为连续变量预测称为回归问题,输出变量为有限个离散额预测为分类问题
4.联合概率分布,监督学习假设输入与输出随机变量X,Y遵循联合概率分布P(X,Y),P(X,Y)表示分布函数或分布密度函数。注意:对于学习系统,联合概率分布是未知的,但是训练数据与测试数据仍然是被看作是依联合概率分布P(X,Y)独立同分布,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设
二.统计学习三要素
1.模型
2.策略:损失函数和风险函数,损失函数数值最小,模型就越好,由于输入输出度遵循联合分布P(X,Y),损失函数的期望是 R e x p ( f ) = E p [ L ( Y , f ( X ) ) ] = ∫ x × y L ( Y , f ( X ) ) P ( x , y ) d x d y R_{exp}(f)=E_p[L(Y,f(X))]=\int_{x \times y}L(Y,f(X)) P(x,y)dxdy Rexp(f)=Ep[L(Y,f(X))]=∫x×yL(Y,f(X))P(x,y)dxdy,由于联合分布P(X,Y)是未知的所以 R e x p ( f ) R_{exp}(f) Rexp(f)不能直接计算。所以才需要学习给出一个平均损失(经验风险) R e m p ( f ) = 1 / N ∑ i = 1 N L ( y i , f ( x i ) ) R_{emp}(f)=1/N\sum_{i=1}^NL(y_i,f(x_i)) Remp(f)=1/N∑i=1NL(yi,f(xi)),根据大数定律,样本容量N趋于无穷大期望风险趋于经验风险。
3.经验风险最小化和结构风险最小化:结构风险最小化是为了防止过拟合而提出的策略:
解决方法:在经验风险最小化加上模型复杂度的正则化项
R
s
r
m
(
f
)
=
1
/
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
R_{srm}(f)=1/N\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)
Rsrm(f)=1/N∑i=1NL(yi,f(xi))+λJ(f),J(f)为模型的复杂度,模型f越复杂J(f)越大。
4.泛化能力:模型对未知数据的预测能力称为泛化能力。
5.泛化误差上界:他是样本容量和假设空间的函数,样本容量增大,泛化上界趋于0,假设空间越大,泛化误差上界就越大。
6.精确率定义:P=正类预测正确 / 正类预测为正类+负类预测为正类
7.召回率定义:R=正类预测正确 / 正类预测为正类+正类预测为负类
8.精确率和召回率的调和均值:F1=1/P+1/R=2TP/2TP+FP+FN