线性模型概述


  线性模型( Linear Model )是机器学习中应用最广泛的模型,指通过样本特征的线性组合来进行预测的模型.在分类问题中,由于输出目标 y y y 是一些离散的标签,而 f ( x ; w ) f(x;w) f(x;w) 的值域为实数,因此无法直接用 f ( x ; w ) f(x;w) f(x;w) 来进行预测.要引入一个非线性的决策函数( Decision Function ) g ( ⋅ ) g(·) g() 来预测输出目标,其中 f ( x ; w ) f(x;w) f(x;w) 也称为判别函数( Discriminant Function ).

3.1 线性判别函数和决策边界

  一个线性分类模型( Linear Classification Model )或线性分类器( Linear Classifier ),是由一个(或多个)线性的判别函数 f ( x ; w ) f(x;w) f(x;w)和非线性的决策函数 g ( ⋅ ) g(·) g()组成.

  在二分类问题中,我们只需要一个线性判别函数 f ( x ; w ) f(x;w) f(x;w).特征空间 R D R^D RD 中所有满足 f ( x ; w ) = 0 f(x;w) = 0 f(x;w)=0 的点组成一个分割超平面( Hyperplane ),称为决策边界( Decision Boundary )或决策平面( Decision Surface ).决策边界将特征空间一分为二,划分成两个区域,每个区域对应一个类别.

  多分类( Multi-class Classification )问题是指分类的类别数 𝐷 大于 2 .多分类一般需要多个线性判别函数,但设计这些判别函数有很多种方式.

常用的方式有以下三种:

  1. 一对其余”方式:把多分类问题转换为 𝐷 个“一对其余”的二分类问题.
  2. “一对一”方式:把多分类问题转换为 𝐷(𝐷 − 1)/2 个“一对一”的二分类问题.
  3. “ argmax ”方式:这是一种改进的“一对其余”方式,不会出现难以确定类别的区域.

3.2 Logistic 回归

  Logistic 回归( Logistic Regression , LR )是一种常用的处理二分类问题的线性模型.为了解决连续的线性函数不适合进行分类的问题,我们引入非线性函数 g ( ⋅ ) g(·) g() 来预测类别标签的后验概率.其中 g ( ⋅ ) g(·) g() 通常称为激活函数( Activation Function ),其作用是把线性函数的值域从实数区间“挤压”到了 (0,1) 之间,可以用来表示概率.在统计文献中, g ( ⋅ ) g(·) g() 的逆函数也称为联系函数( Link Function ).

  Logistic 回归采用交叉熵作为损失函数,并使用梯度下降法来对参数进行优化.

3.3 Softmax 回归

  Softmax 回归( Softmax Regression ),也称为多项( Multinomial )或多类( Multi-Class )的 Logistic 回归,是 Logistic 回归在多分类问题上的推广.

3.4 感知器

  感知器( Perceptron )由 Frank Roseblatt 于 1957 年提出,是一种广泛使用的线性分类器.感知器可谓是最简单的人工神经网络,只有一个神经元.

  感知器是对生物神经元的简单数学模拟,有与生物神经元相对应的部件,如权重(突触)、偏置(阈值)及激活函数(细胞体),输出为 +1 或 −1 .

  感知器的学习算法是一种错误驱动的在线学习算法,每分错一个样本,感知器就用这个样本来更新权重.

3.4.1 感知器的收敛性

  证明对于两类问题,如果训练集是线性可分的,那么感知器算法可以在有限次迭代后收敛.然而,如果训练集不是线性可分的,那么这个算法则不能确保会收敛.

3.4.2 参数平均感知器

  如果训练数据是线性可分的,那么感知器可以找到一个判别函数来分割不同类的数据.如果间隔越大,收敛越快.但是感知器并不能保证找到的判别函数是最优的(比如泛化能力高),这样可能导致过拟合.

  为了提高感知器的鲁棒性和泛化能力,我们可以将在感知器学习过程中的所有 K K K个权重向量保存起来,并赋予每个权重向量 一个置信系数最终的分类结果通过这 K K K 个不同权重的感知器投票决定,这个模型也称为投票感知器( Voted Perceptron ).

  投票感知器虽然提高了感知器的泛化能力,但是需要保存 K K K个权重向量.在实际操作中会带来额外的开销.因此,人们经常会使用一个简化的版本,通过使用“参数平均”的策略来减少投票感知器的参数数量,也叫作平均感知器( Averaged Perceptron )

3.5 支持向量机

  支持向量机( Support Vector Machine , SVM )是一个经典的二分类算法,其找到的分割超平面具有更好的鲁棒性,因此广泛使用在很多任务上,并表现出了很强优势.

  我们定义间隔( Margin ) γ γ γ 为整个数据集 D D D 中所有样本到分割超平面的最短距离.如果间隔 γ γ γ 越大,其分割超平面对两个数据集的划分越稳定,不容易受噪声等因素影响.支持向量机的目标是寻找一个超平面使得 γ γ γ 最大,

  支持向量机还有一个重要的优点是可以使用核函数( Kernel Function )隐式地将样本从原始特征空间映射到更高维的空间,并解决原始特征空间中的线性不可分问题.

  在支持向量机的优化问题中,约束条件比较严格.如果训练集中的样本在特征空间中不是线性可分的,就无法找到最优解.为了能够容忍部分不满足约束的样本,我们可以引入松弛变量( Slack Variable ).引入松弛变量的间隔称为软间隔( SoftMargin ).

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值