详细版【线性模型】（邱锡鹏）

皇皇零岁

于 2022-04-18 10:14:26 发布

阅读量480

点赞数

分类专栏：机器学习文章标签：机器学习分类 python 支持向量机逻辑回归

本文链接：https://blog.csdn.net/weixin_43232279/article/details/124242961

版权

本文深入探讨线性模型在分类问题中的应用，包括Logistic回归、Softmax回归和感知机，重点解析支持向量机的间隔最大化目标。通过实例解释了各种模型的工作原理、决策边界和参数学习方法，展示了线性模型在解决二分类和多分类问题中的重要性。

摘要由CSDN通过智能技术生成

线性模型

线性组合函数：𝑓(𝒙; 𝒘) = 𝑤₁𝑥₁ + 𝑤₂𝑥₂ + ⋯ + 𝑤_𝐷𝑥_𝐷 + 𝑏 = 𝒘^T𝒙 + 𝑏，其中 𝒘 = [𝑤₁ , ⋯ , 𝑤_𝐷] ^T 为 𝐷 维的权重向量，𝑏为偏置。在分类问题中，由于输出目标 𝑦 是一些离散的标签，而 𝑓(𝒙; 𝒘) 的值域为实数，因此需要引入一个非线性的决策函数𝑔(⋅)来预测输出目标 𝑦 = 𝑔(𝑓(𝒙; 𝒘))，其中𝑓(𝒙; 𝒘)也称为判别函数。

一个线性分类模型LCM或线性分类器LC是由一个（或多个）线性的判别函数 𝑓(𝒙; 𝒘) = 𝒘^T𝒙 + 𝑏 和非线性的决策函数 𝑔(⋅) 组成。
线性分类模型：指决策边界是线性超平面的模型，在特征空间中决策平面与权重向量 𝒘 正交（二维时斜率是w^T，其线性代数性质保证了决策直线必然与w正交）特征空间中每个样本点到决策平面的有向距离为𝛾 = $\frac{𝑓(𝒙; 𝒘)}{‖𝒘‖ }$ ，𝛾也可以看作点𝒙在𝒘方向上的投影。
二分类问题：标签 𝑦 只有两种取值 {+1, −1} 或 {0, 1} （正例 / 负例）模型只需要一个线性判别函数 𝑓(𝒙; 𝒘)
- 决策边界或决策平面：所有满足 𝑓(𝒙; 𝒘) = 0 的点组成一个分割超平面（𝐷维空间的超平面是𝐷−1维的，二维直线，三维平面，高维超平面）它将特征空间划分成两个区域，分别对应一个类别。
- 两类线性可分：对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} ^𝑁_𝑛=1，如果存在权重向量𝒘∗，对所有样本都满足𝑦𝑓(𝒙; 𝒘^∗ ) > 0，那么训练集𝒟 是线性可分的。注： 𝑓(𝒙^(𝑛); 𝒘^∗ ) > 0 if 𝑦 (𝑛) = 1, 𝑓(𝒙^(𝑛); 𝒘^∗ ) < 0 if 𝑦 (𝑛) = −1，合并即可
多分类：类别为{1, 2, ⋯ , 𝐶}
- 多类线性可分：对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} ^𝑁_𝑛=1，如果存在𝐶 个权重向量𝒘^∗1 , ⋯ , 𝒘^∗𝐶使得第𝑐(1 ≤ 𝑐 ≤ 𝐶)类的所有样本都满足𝑓_𝑐(𝒙; 𝒘𝑐 ) > 𝑓_𝑐̃ (𝒙, 𝒘_𝑐̃ )，则训练集𝒟 线性可分（argmax）
- 一对其余：𝐶 个“一对其余”的二分类问题。共需要 𝐶 个判别函数，其中第 𝑐 个判别函数 𝑓_𝑐 是将类别 𝑐 的样本和不属于类别𝑐的样本分开
- “一对一”方式：转换为 𝐶(𝐶 − 1)/2 个“一对一”的二分类问题。共需要𝐶(𝐶 − 1)/2个判别函数，其中第(𝑖, 𝑗)个判别函数是把类别𝑖 和类别𝑗 的样本分开（ 1 ≤ 𝑖 < 𝑗 ≤ 𝐶 ）
- “argmax”方式：改进的“一对其余”。共需要 𝐶 个判别函数 𝑓_𝑐(𝒙; 𝒘_𝑐) = 𝒘^T_𝑐𝒙 + 𝑏_𝑐 , 𝑐 ∈ {1, ⋯ , 𝐶}。对于样本𝒙，如果存在一个类别𝑐，相对于所有的其他类别 $\tilde{c}$ ( $\tilde{c}$ ≠ 𝑐)有𝑓_𝑐(𝒙; 𝒘𝑐 ) > 𝑓_𝑐̃ (𝒙, 𝒘_𝑐̃ )，那么𝒙属于类别𝑐
  - 预测函数： $=\underset{1 \le 𝑐 \le 𝐶}{\arg \max}$ 𝑓_𝑐 (𝒙; 𝒘_𝑐 )
  - 有效解决了前两种方法的缺陷：特征空间中会存在一些难以确定类别的区域，下图中红色直线表示判别函数 𝑓(⋅) = 0，不同颜色区域表示预测的三个类别的区域和难以确定类别的区域(‘?’)。“argmax”中，相邻两类 𝑖 和 𝑗 的决策边界实际上是由 𝑓_𝑖(𝒙; 𝒘_𝑖) − 𝑓_𝑗(𝒙; 𝒘_𝑗) = 0决定，其法向量为𝒘_𝑖 − 𝒘_𝑗。

Logistic回归

Logistic 回归（LR，对数几率回归）：常用的处理二分类问题的线性模型

激活函数𝑔(⋅)：非线性函数𝑔∶ℝ^𝐷 → (0, 1)，用于预测类别标签的后验概率𝑝(𝑦 = 1|𝒙) = 𝑔(𝑓(𝒙; 𝒘))。注意上一章我们有提到线性回归，也就是说通常来说参数的学习过程用的是MLR，即线性回归的方式来拟合，最终得到的就是线性函数，但是连续线性函数并不适合分类问题，况且其值域是在实数范围内的。后验概率其实就是条件概率，即以先验概率为基础。目的是把线性函数的值域从实数区间“挤压”到了(0, 1)之间，用以表示概率。𝑔(⋅)的逆函数𝑔⁻¹(⋅)也称为联系函数，𝑓(𝒙; 𝒘)也称为判别函数。
Logistic回归的激活函数：标准Logistic函数
- 标签𝑦 = 1的后验概率 𝑝(𝑦 = 1|𝒙) = 𝜎(𝒘^T𝒙) ≜ $\frac{1}{1 + exp(−𝒘^T𝒙)}$ 这里 𝒙 = [𝑥¹ , ⋯ , 𝑥^𝐷, 1]^T和 𝒘 = [𝑤¹ , ⋯ , 𝑤^𝐷, 𝑏]^T 分别为 𝐷 + 1 维的增广特征向量和增广权重向量。
- 标签𝑦 = 0的后验概率 𝑝(𝑦 = 0|𝒙) = 1 − 𝑝(𝑦 = 1|𝒙) = $\frac{exp(−𝒘^T𝒙)}{1 + exp(−𝒘^T𝒙)}$