1. 优化方法与机器学习
假设样本空间 X X X,label 空间 Y Y Y,假设空间 H H H包含从 X X X到 Y Y Y的映射。损失函数 L : Y × Y → R L: Y\times Y \rightarrow \mathcal{R} L:Y×Y→R。在 X × Y X\times Y X×Y的空间上的概率分布 P P P。
定义假设空间中的 h ∈ H h\in H h∈H, h h h的风险值为 L p ( h ) = E p ( L ( h ( x ) , y ) ) \mathcal{L}_{p}(h)=E_{p}(L(h(x),y)) Lp(h)=Ep(L(h(x),y))。机器学习算法的目标就是要从假设空间 H H H中找到一个映射 h h h,使得最小化风险值(risk), m i n h ∈ H L p ( h ) min_{h\in H} \mathcal{L}_{p}(h) minh∈HLp(h)。
常用的方法是经验风险最小化(empirical risk minimization)
, m i n h ∈ H ∑ i = 1 n L ( h ( x i ) , y i ) = m i n θ ∑ i = 1 n L ( h θ ( x i ) , y i ) min_{h \in H}\sum_{i=1}^{n}L(h(x_i),y_i)=min_{\theta}\sum_{i=1}^n L(h_{\theta}(x_i),y_i) minh∈H∑i=1nL(h(xi),yi)=minθ∑i=1nL(hθ(xi),yi)。公式中 θ \theta θ表示模型中的参数。因此目标可以转换为求取最好的那个参数来最小化经验风险, θ ∗ = a r g m i n θ ∑ i = 1 n L ( h θ ( x i ) , y i ) \theta_{*}=argmin_{\theta}\sum_{i=1}^{n}L(h_\theta(x_i),y_i) θ∗=argminθ∑i=1nL(hθ(xi),yi)。
对于分类任务, y i ∈ { − 1 , 1 } y_i \in \{-1,1\} yi∈{
−1,1},而对于回归任务,则 y i ∈ R y_i \in \mathbb{R} yi∈R。
1.2 几种损失函数
1.2.1 0-1 损失函数
对于分类任务来说,可以根据误分类的个数作为损失函数,即 ∑ i = 1 n 1 s i g n ( h ( x i ) ) ≠ y i = ∑ i = 1 n 1 h ( x i ) y i < 0 \sum_{i=1}^n \mathcal{1}_{sign(h(x_i))\neq y_i}=\sum_{i=1}^{n}\mathcal{1}_{h(x_i)y_i < 0} ∑i=1n1sign(h(xi))=yi=∑i=1n1h(xi)yi<0。公式中的 1 \mathcal{1} 1是一个向量, 1 i = { 0 , o t h e r w i s e . 1 , 正 确 分 类 \mathcal{1}_i=\{_{0,otherwise.}^{1, 正确分类} 1i