详细版【线性模型】(邱锡鹏)

本文深入探讨线性模型在分类问题中的应用,包括Logistic回归、Softmax回归和感知机,重点解析支持向量机的间隔最大化目标。通过实例解释了各种模型的工作原理、决策边界和参数学习方法,展示了线性模型在解决二分类和多分类问题中的重要性。
摘要由CSDN通过智能技术生成

线性模型

  • 线性组合函数:𝑓(𝒙; 𝒘) = 𝑤1𝑥1 + 𝑤2𝑥2 + ⋯ + 𝑤𝐷𝑥𝐷 + 𝑏 = 𝒘T𝒙 + 𝑏,其中 𝒘 = [𝑤1 , ⋯ , 𝑤𝐷] T 为 𝐷 维的权重向量,𝑏为偏置。在分类问题中,由于输出目标 𝑦 是一些离散的标签,而 𝑓(𝒙; 𝒘) 的值域为实数,因此需要引入一个非线性的决策函数𝑔(⋅)来预测输出目标 𝑦 = 𝑔(𝑓(𝒙; 𝒘)),其中𝑓(𝒙; 𝒘)也称为判别函数

    一个线性分类模型LCM或线性分类器LC是由一个(或多个)线性的判别函数 𝑓(𝒙; 𝒘) = 𝒘T𝒙 + 𝑏 和非线性的决策函数 𝑔(⋅) 组成。

  • 线性分类模型:指决策边界是线性超平面的模型,在特征空间中决策平面与权重向量 𝒘 正交( 二维时斜率是wT,其线性代数性质保证了决策直线必然与w正交)特征空间中每个样本点到决策平面的有向距离为𝛾 = 𝑓 ( 𝒙 ; 𝒘 ) ‖ 𝒘 ‖ \frac{𝑓(𝒙; 𝒘)}{‖𝒘‖ } wf(x;w) ,𝛾也可以看作点𝒙在𝒘方向上的投影

  • 二分类问题:标签 𝑦 只有两种取值 {+1, −1} 或 {0, 1} (正例 / 负例)模型只需要一个线性判别函数 𝑓(𝒙; 𝒘)

    • 决策边界或决策平面:所有满足 𝑓(𝒙; 𝒘) = 0 的点组成一个分割超平面(𝐷维空间的超平面是𝐷−1维的,二维直线,三维平面,高维超平面)它将特征空间划分成两个区域,分别对应一个类别。
      在这里插入图片描述
    • 两类线性可分:对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} 𝑁𝑛=1,如果存在权重向量𝒘∗,对所有样本都满足𝑦𝑓(𝒙; 𝒘 ) > 0,那么训练集𝒟 是线性可分的。注: 𝑓(𝒙(𝑛); 𝒘 ) > 0 if 𝑦 (𝑛) = 1, 𝑓(𝒙(𝑛); 𝒘 ) < 0 if 𝑦 (𝑛) = −1,合并即可
  • 多分类:类别为{1, 2, ⋯ , 𝐶}

    • 多类线性可分:对于训练集𝒟 = {(𝒙(𝑛), 𝑦(𝑛))} 𝑁𝑛=1,如果存在𝐶 个权重向量𝒘1 , ⋯ , 𝒘𝐶使得第𝑐(1 ≤ 𝑐 ≤ 𝐶)类的所有样本都满足𝑓𝑐(𝒙; 𝒘𝑐 ) > 𝑓𝑐̃ (𝒙, 𝒘𝑐̃ ),则训练集𝒟 线性可分(argmax)

    • 一对其余:𝐶 个“一对其余”的二分类问题。共需要 𝐶 个判别函数,其中第 𝑐 个判别函数 𝑓𝑐 是将类别 𝑐 的样本和不属于类别𝑐的样本分开

    • “一对一”方式:转换为 𝐶(𝐶 − 1)/2 个“一对一”的二分类问题。共需要𝐶(𝐶 − 1)/2个判别函数,其中第(𝑖, 𝑗)个判别函数是把类别𝑖 和类别𝑗 的样本分开( 1 ≤ 𝑖 < 𝑗 ≤ 𝐶 )

    • “argmax”方式:改进的“一对其余”。共需要 𝐶 个判别函数 𝑓𝑐(𝒙; 𝒘𝑐) = 𝒘T𝑐𝒙 + 𝑏𝑐 , 𝑐 ∈ {1, ⋯ , 𝐶}。对于样本𝒙,如果存在一个类别𝑐,相对于所有的其他类别 c ~ \tilde{c} c~ ( c ~ \tilde{c} c~≠ 𝑐)有𝑓𝑐(𝒙; 𝒘𝑐 ) > 𝑓𝑐̃ (𝒙, 𝒘𝑐̃ ),那么𝒙属于类别𝑐

      • 预测函数: 𝑦 = arg ⁡ max ⁡ 1 ≤ 𝑐 ≤ 𝐶 𝑦 =\underset{1 \le 𝑐 \le 𝐶}{\arg \max} y=1cCargmax𝑓𝑐 (𝒙; 𝒘𝑐 )

      • 有效解决了前两种方法的缺陷:特征空间中会存在一些难以确定类别的区域,下图中红色直线表示判别函数 𝑓(⋅) = 0,不同颜色区域表示预测的三个类别的区域和难以确定类别的区域(‘?’)。“argmax”中,相邻两类 𝑖 和 𝑗 的决策边界实际上是由 𝑓𝑖(𝒙; 𝒘𝑖) − 𝑓𝑗(𝒙; 𝒘𝑗) = 0决定,其法向量为𝒘𝑖 − 𝒘𝑗
        在这里插入图片描述

Logistic回归

Logistic 回归(LR,对数几率回归):常用的处理二分类问题的线性模型

  • 激活函数𝑔(⋅):非线性函数𝑔∶ℝ𝐷 → (0, 1),用于预测类别标签的后验概率𝑝(𝑦 = 1|𝒙) = 𝑔(𝑓(𝒙; 𝒘))。注意上一章我们有提到线性回归,也就是说通常来说参数的学习过程用的是MLR,即线性回归的方式来拟合,最终得到的就是线性函数,但是连续线性函数并不适合分类问题,况且其值域是在实数范围内的。后验概率其实就是条件概率,即以先验概率为基础。目的是把线性函数的值域从实数区间“挤压”到了(0, 1)之间,用以表示概率。𝑔(⋅)的逆函数𝑔−1(⋅)也称为联系函数,𝑓(𝒙; 𝒘)也称为判别函数。

  • Logistic回归的激活函数:标准Logistic函数
    在这里插入图片描述

    • 标签𝑦 = 1的后验概率 𝑝(𝑦 = 1|𝒙) = 𝜎(𝒘T𝒙) ≜ 1 1 + e x p ( − 𝒘 T 𝒙 ) \frac{1}{1 + exp(−𝒘^T𝒙)} 1+exp(wTx)1 这里 𝒙 = [𝑥1 , ⋯ , 𝑥𝐷, 1]T和 𝒘 = [𝑤1 , ⋯ , 𝑤𝐷, 𝑏]T 分别为 𝐷 + 1 维的增广特征向量和增广权重向量。
    • 标签𝑦 = 0的后验概率 𝑝(𝑦 = 0|𝒙) = 1 − 𝑝(𝑦 = 1|𝒙) = e x p ( − 𝒘 T 𝒙 ) 1 + e x p ( − 𝒘 T 𝒙 ) \frac{exp(−𝒘^T𝒙)}{1 + exp(−𝒘^T𝒙)}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值