线性模型
-
线性组合函数:𝑓(𝒙; 𝒘) = 𝑤1𝑥1 + 𝑤2𝑥2 + ⋯ + 𝑤𝐷𝑥𝐷 + 𝑏 = 𝒘T𝒙 + 𝑏,其中 𝒘 = [𝑤1 , ⋯ , 𝑤𝐷] T 为 𝐷 维的权重向量,𝑏为偏置。在分类问题中,由于输出目标 𝑦 是一些离散的标签,而 𝑓(𝒙; 𝒘) 的值域为实数,因此需要引入一个非线性的决策函数𝑔(⋅)来预测输出目标 𝑦 = 𝑔(𝑓(𝒙; 𝒘)),其中𝑓(𝒙; 𝒘)也称为判别函数。
一个线性分类模型LCM或线性分类器LC是由一个(或多个)线性的判别函数 𝑓(𝒙; 𝒘) = 𝒘T𝒙 + 𝑏 和非线性的决策函数 𝑔(⋅) 组成。
-
线性分类模型:指决策边界是线性超平面的模型,在特征空间中决策平面与权重向量 𝒘 正交( 二维时斜率是wT,其线性代数性质保证了决策直线必然与w正交)特征空间中每个样本点到决策平面的有向距离为𝛾 = 𝑓 ( 𝒙 ; 𝒘 ) ‖ 𝒘 ‖ \frac{𝑓(𝒙; 𝒘)}{‖𝒘‖ } ‖w‖f(x;w) ,𝛾也可以看作点𝒙在𝒘方向上的投影。
-
二分类问题:标签 𝑦 只有两种取值 {+1, −1} 或 {0, 1} (正例 / 负例)模型只需要一个线性判别函数 𝑓(𝒙; 𝒘)
- 决策边界或决策平面:所有满足 𝑓(𝒙; 𝒘) = 0 的点组成一个分割超平面(𝐷维空间的超平面是𝐷−1维的,二维直线,三维平面,高维超平面)它将特征空间划分成两个区域,分别对应一个类别。
- 两类线性可分:对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} 𝑁𝑛=1,如果存在权重向量𝒘∗,对所有样本都满足𝑦𝑓(𝒙; 𝒘∗ ) > 0,那么训练集𝒟 是线性可分的。注: 𝑓(𝒙(𝑛); 𝒘∗ ) > 0 if 𝑦 (𝑛) = 1, 𝑓(𝒙(𝑛); 𝒘∗ ) < 0 if 𝑦 (𝑛) = −1,合并即可
- 决策边界或决策平面:所有满足 𝑓(𝒙; 𝒘) = 0 的点组成一个分割超平面(𝐷维空间的超平面是𝐷−1维的,二维直线,三维平面,高维超平面)它将特征空间划分成两个区域,分别对应一个类别。
-
多分类:类别为{1, 2, ⋯ , 𝐶}
-
多类线性可分:对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} 𝑁𝑛=1,如果存在𝐶 个权重向量𝒘∗1 , ⋯ , 𝒘∗𝐶使得第𝑐(1 ≤ 𝑐 ≤ 𝐶)类的所有样本都满足𝑓𝑐(𝒙; 𝒘𝑐 ) > 𝑓𝑐̃ (𝒙, 𝒘𝑐̃ ),则训练集𝒟 线性可分(argmax)
-
一对其余:𝐶 个“一对其余”的二分类问题。共需要 𝐶 个判别函数,其中第 𝑐 个判别函数 𝑓𝑐 是将类别 𝑐 的样本和不属于类别𝑐的样本分开
-
“一对一”方式:转换为 𝐶(𝐶 − 1)/2 个“一对一”的二分类问题。共需要𝐶(𝐶 − 1)/2个判别函数,其中第(𝑖, 𝑗)个判别函数是把类别𝑖 和类别𝑗 的样本分开( 1 ≤ 𝑖 < 𝑗 ≤ 𝐶 )
-
“argmax”方式:改进的“一对其余”。共需要 𝐶 个判别函数 𝑓𝑐(𝒙; 𝒘𝑐) = 𝒘T𝑐𝒙 + 𝑏𝑐 , 𝑐 ∈ {1, ⋯ , 𝐶}。对于样本𝒙,如果存在一个类别𝑐,相对于所有的其他类别 c ~ \tilde{c} c~ ( c ~ \tilde{c} c~≠ 𝑐)有𝑓𝑐(𝒙; 𝒘𝑐 ) > 𝑓𝑐̃ (𝒙, 𝒘𝑐̃ ),那么𝒙属于类别𝑐
-
预测函数: 𝑦 = arg max 1 ≤ 𝑐 ≤ 𝐶 𝑦 =\underset{1 \le 𝑐 \le 𝐶}{\arg \max} y=1≤c≤Cargmax𝑓𝑐 (𝒙; 𝒘𝑐 )
-
有效解决了前两种方法的缺陷:特征空间中会存在一些难以确定类别的区域,下图中红色直线表示判别函数 𝑓(⋅) = 0,不同颜色区域表示预测的三个类别的区域和难以确定类别的区域(‘?’)。“argmax”中,相邻两类 𝑖 和 𝑗 的决策边界实际上是由 𝑓𝑖(𝒙; 𝒘𝑖) − 𝑓𝑗(𝒙; 𝒘𝑗) = 0决定,其法向量为𝒘𝑖 − 𝒘𝑗。
-
-
Logistic回归
Logistic 回归(LR,对数几率回归):常用的处理二分类问题的线性模型
-
激活函数𝑔(⋅):非线性函数𝑔∶ℝ𝐷 → (0, 1),用于预测类别标签的后验概率𝑝(𝑦 = 1|𝒙) = 𝑔(𝑓(𝒙; 𝒘))。注意上一章我们有提到线性回归,也就是说通常来说参数的学习过程用的是MLR,即线性回归的方式来拟合,最终得到的就是线性函数,但是连续线性函数并不适合分类问题,况且其值域是在实数范围内的。后验概率其实就是条件概率,即以先验概率为基础。目的是把线性函数的值域从实数区间“挤压”到了(0, 1)之间,用以表示概率。𝑔(⋅)的逆函数𝑔−1(⋅)也称为联系函数,𝑓(𝒙; 𝒘)也称为判别函数。
-
Logistic回归的激活函数:标准Logistic函数
- 标签𝑦 = 1的后验概率 𝑝(𝑦 = 1|𝒙) = 𝜎(𝒘T𝒙) ≜ 1 1 + e x p ( − 𝒘 T 𝒙 ) \frac{1}{1 + exp(−𝒘^T𝒙)} 1+exp(−wTx)1 这里 𝒙 = [𝑥1 , ⋯ , 𝑥𝐷, 1]T和 𝒘 = [𝑤1 , ⋯ , 𝑤𝐷, 𝑏]T 分别为 𝐷 + 1 维的增广特征向量和增广权重向量。
- 标签𝑦 = 0的后验概率 𝑝(𝑦 = 0|𝒙) = 1 − 𝑝(𝑦 = 1|𝒙) = e x p ( − 𝒘 T 𝒙 ) 1 + e x p ( − 𝒘 T 𝒙 ) \frac{exp(−𝒘^T𝒙)}{1 + exp(−𝒘^T𝒙)}