线性模型概述

最新推荐文章于 2023-12-02 21:29:05 发布

爱蹦跶的小贺

最新推荐文章于 2023-12-02 21:29:05 发布

阅读量2.5k

点赞数 2

分类专栏：深度学习与神经网络学习笔记文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_42513086/article/details/117779595

版权

深度学习与神经网络学习笔记专栏收录该内容

15 篇文章 3 订阅

订阅专栏

线性模型

3.1 线性判别函数和决策边界
3.2 Logistic 回归
3.3 Softmax 回归
3.4 感知器
- 3.4.1 感知器的收敛性
- 3.4.2 参数平均感知器
3.5 支持向量机

线性模型（ Linear Model ）是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型．在分类问题中，由于输出目标

y

是一些离散的标签，而

f (x; w)

的值域为实数，因此无法直接用

f (x; w)

来进行预测.要引入一个非线性的决策函数（ Decision Function ）

g (\cdot)

来预测输出目标，其中

f (x; w)

也称为判别函数（ Discriminant Function ）．

3.1 线性判别函数和决策边界

一个线性分类模型（ Linear Classification Model ）或线性分类器（ Linear Classifier ），是由一个（或多个）线性的判别函数 $f (x; w)$ 和非线性的决策函数 $g (\cdot)$ 组成.

在二分类问题中，我们只需要一个线性判别函数 $f (x; w)$ ．特征空间 $R^D$ 中所有满足 $f (x; w) = 0$ 的点组成一个分割超平面（ Hyperplane ），称为决策边界（ Decision Boundary ）或决策平面（ Decision Surface ）．决策边界将特征空间一分为二，划分成两个区域，每个区域对应一个类别．

多分类（ Multi-class Classification ）问题是指分类的类别数 𝐷 大于 2 ．多分类一般需要多个线性判别函数，但设计这些判别函数有很多种方式．

常用的方式有以下三种：

一对其余”方式：把多分类问题转换为 𝐷 个“一对其余”的二分类问题．
“一对一”方式：把多分类问题转换为 𝐷(𝐷 − 1)/2 个“一对一”的二分类问题．
“ argmax ”方式：这是一种改进的“一对其余”方式，不会出现难以确定类别的区域.

3.2 Logistic 回归

Logistic 回归（ Logistic Regression ， LR ）是一种常用的处理二分类问题的线性模型．为了解决连续的线性函数不适合进行分类的问题，我们引入非线性函数 $g (\cdot)$ 来预测类别标签的后验概率.其中 $g (\cdot)$ 通常称为激活函数（ Activation Function ），其作用是把线性函数的值域从实数区间“挤压”到了 (0,1) 之间，可以用来表示概率．在统计文献中， $g (\cdot)$ 的逆函数也称为联系函数（ Link Function ）．

Logistic 回归采用交叉熵作为损失函数，并使用梯度下降法来对参数进行优化．

3.3 Softmax 回归

Softmax 回归（ Softmax Regression ），也称为多项（ Multinomial ）或多类（ Multi-Class ）的 Logistic 回归，是 Logistic 回归在多分类问题上的推广．

3.4 感知器

感知器（ Perceptron ）由 Frank Roseblatt 于 1957 年提出，是一种广泛使用的线性分类器．感知器可谓是最简单的人工神经网络，只有一个神经元.

感知器是对生物神经元的简单数学模拟，有与生物神经元相对应的部件，如权重（突触）、偏置（阈值）及激活函数（细胞体），输出为 +1 或 −1 ．

感知器的学习算法是一种错误驱动的在线学习算法，每分错一个样本，感知器就用这个样本来更新权重.

3.4.1 感知器的收敛性

证明对于两类问题，如果训练集是线性可分的，那么感知器算法可以在有限次迭代后收敛．然而，如果训练集不是线性可分的，那么这个算法则不能确保会收敛．

3.4.2 参数平均感知器

如果训练数据是线性可分的，那么感知器可以找到一个判别函数来分割不同类的数据．如果间隔越大，收敛越快．但是感知器并不能保证找到的判别函数是最优的（比如泛化能力高），这样可能导致过拟合．

为了提高感知器的鲁棒性和泛化能力，我们可以将在感知器学习过程中的所有 $K$ 个权重向量保存起来，并赋予每个权重向量一个置信系数最终的分类结果通过这 $K$ 个不同权重的感知器投票决定，这个模型也称为投票感知器（ Voted Perceptron ）.

投票感知器虽然提高了感知器的泛化能力，但是需要保存 $K$ 个权重向量．在实际操作中会带来额外的开销．因此，人们经常会使用一个简化的版本，通过使用“参数平均”的策略来减少投票感知器的参数数量，也叫作平均感知器（ Averaged Perceptron ）

3.5 支持向量机

支持向量机（ Support Vector Machine ， SVM ）是一个经典的二分类算法，其找到的分割超平面具有更好的鲁棒性，因此广泛使用在很多任务上，并表现出了很强优势．

我们定义间隔（ Margin ） $γ$ 为整个数据集 $D$ 中所有样本到分割超平面的最短距离.如果间隔 $γ$ 越大，其分割超平面对两个数据集的划分越稳定，不容易受噪声等因素影响．支持向量机的目标是寻找一个超平面使得 $γ$ 最大，

支持向量机还有一个重要的优点是可以使用核函数（ Kernel Function ）隐式地将样本从原始特征空间映射到更高维的空间，并解决原始特征空间中的线性不可分问题．

在支持向量机的优化问题中，约束条件比较严格．如果训练集中的样本在特征空间中不是线性可分的，就无法找到最优解．为了能够容忍部分不满足约束的样本，我们可以引入松弛变量（ Slack Variable ）.引入松弛变量的间隔称为软间隔（ SoftMargin ）．

爱蹦跶的小贺

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
线性模型概述

线性模型3.1 线性判别函数和决策边界3.2 Logistic 回归3.3 Softmax 回归3.4 感知器3.4.1 感知器的收敛性3.4.2 参数平均感知器3.5 支持向量机线性模型（ Linear Model ）是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型．在分类问题中，由于输出目标 yyy 是一些离散的标签，而 f(x;w)f(x;w)f(x;w) 的值域为实数，因此无法直接用 f(x;w)f(x;w)f(x;w) 来进行预测要引入一个非线性的决策函数（ Decis
复制链接

扫一扫