nndl-book-笔记-入门第三章-线性模型

最新推荐文章于 2022-09-25 16:20:27 发布

_Wooden_

最新推荐文章于 2022-09-25 16:20:27 发布

阅读量367

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41427834/article/details/107495029

版权

第3 章线性模型

1）线性模型（Linear Model）是机器学习中应用最广泛的模型，指通过样本特征的线性组合来进行预测的模型。

2）四种不同线性分类模型：logistic 回归、softmax 回归、感知器和支持向量机。

3.1 线性判别函数和决策边界

一个线性分类模型（线性分类器），是由一个（或多个）线性的判别函数f(x,w) =wTx+b 和非线性的决策函数g(·) 组成

3.1.1 两类分类

1）两类分类样本标签{-1，+1}或{0,1}

2）在两个分类中，我们只需要一个线性判别函数f(x,w) = wTx +b。特征空间Rd 中所有满足f(x,w) = 0 的点组成用一个分割超平面，称为决策边界或决策平面。决策边界将所有样本划分为两个区域，即实现二分类。

3）在二维空间中，决策边界为一个直线；在三维空间中，决策边界为一个平面；在高维空间中，决策边界为一个超平面。

4）当标签为{-1，+1}时，尽量满足： y(n) f(x(n),w∗) > 0，即预测值与标签值同号。

3.1.2 多类分类

1）多类分类（Multi-class Classification）问题是指分类的类别数C 大于2。多类分类一般需要多个线性判别函数。

2）多类分类问题的常用方式有三种：一对其余；一对一（每两个类划分）；argmax（可以更好的划分类与类之间相近的区域）

3.2 Logistic 回归

1）Logistic 回归是一种常用的处理两类分类问题的线性模型。在本节中我们采用y ∈ {0, 1} 以符合logistic回归。

2）激活函数：其作用是把线性函数的值域从实数区间“挤压”到了(0, 1) 之间，可以用来表示概率（如使用sigmod函数）。

3）logistic函数：1/(1+e^-(wx)), 如下图所示：

4）线性回归与logistic回归图像

Logistic 回归采用交叉熵作为损失函数，并使用梯度下降法来对参数进行优化。

（交叉熵损失函数：，其中y为标签值，y^为预测值即logistics函数预测值）

5）求导过程

可知，求出对参数W的偏导形式为：；根据梯度下降更新参数，例如：W1=W1-A*(损失函数对W1的偏导) 其中A为学习率，

3.3 Softmax 回归

PS：1、argmax是一种函数，是对函数求参数(集合)的函数。当我们有另一个函数y=f(x)时，若有结果x0= argmax(f(x))，则表示当函数f(x)取x=x0的时候，得到f(x)取值范围的最大值；若有多个点使得f(x)取得相同的最大值，那么argmax(f(x))的结果就是一个点集。

2、指示函数：I(indicator function)，I(X)，其中X为true，返回1，否则返回0。

1）Softmax 回归（Softmax Regression），也称为多项或多类的logistic 回归，是logistic 回归在多类分类问题上的推广。

2）所有类中，C类占的比重即位下式：

3.3.1 参数学习

1）给定N 个训练样本{(x(n), y(n))}N n=1，softmax 回归使用交叉熵损失函数来学习最优的参数矩阵W。

2）因softmax为多项logistic回归，且均使用交叉熵损失函数，故对参数的梯度形式类似；

3）softmax 回归中使用的C 个权重向量是冗余的，即对所有的权重向量都减去一个同样的向量v，不改变其输出结果。（不太懂为啥？？）

3.4 感知器

感知器是最简单的人工神经网络，只有一个神经元，是一种广泛使用的线性分类器。

有与生物神经元相对应的部件，如权重（突触）、偏置（阈值）及激活函数（细胞体），输出为+1或-1。

3.4.1 参数学习

1）约束条件：同上。为了满足预测值与真实值相同。

2）参数更新流程：

3.4.2 感知器的收敛性

1）如果训练集是线性可分的，那么感知器算法可以在有限次迭代后收敛。（废话）

（证明感知机收敛次数范围，看的不是很懂）

2）感知器在线性可分的数据上可以保证收敛，但其存在以下不足之处：
1. 在数据集线性可分时，感知器虽然可以找到一个超平面把两类数据分开，但并不能保证能其泛化能力。
2. 感知器对样本顺序比较敏感。每次迭代的顺序不一致时，找到的分割超平面也往往不一致。
3. 如果训练集不是线性可分的，就永远不会收敛。

3.4.3 参数平均感知器

1）如果间越大，收敛越快。但是感知器并不能保γ证找到的判别函数是最优的，这样可能导致过拟合；感知器的学习到的权重向量和训练样本的顺序相关。在迭代次序上排在后面的错误样本，比前面的错误样本对最终的权重向量影响更大。

故提出参数平均感知机来优化上述问题：

3.4.4 扩展到多类分类

3.5 支持向量机

1）支持向量机是一个经典两类分类算法，其找到的分割超平面具有更好的鲁棒性，因此广泛使用在很多任务上，并表现出了很强优势。目的是找到一个超平面将种类划分开来，当间隔最大时，划分效果最好：

3）同点到直线的距离公式，来计算样本到超平面的距离：

3.5.1 参数学习

1）优化方法，拉格朗日乘数法；求偏导；另起为0；算出最优参数值。

其中，支持向量可称为间隔边缘上的点。

3.5.2 核函数:

当样本在二维平面中无法划分时，将样本空间扩展至高纬空间，为了简化计算高纬度Xi与Xj的内积。

核函数通过在原始空间中Xi、Xj计算在高纬空间中的两者内积，简化计算。

3.5.3 软间隔

当样本中的少部分点偏离时，SVM调整时会产生偏差，导致效果不好，为了解决这个问题，就要允许支持向量机在一些样本上出错，称之为软间隔。

3.6 损失函数对比

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。