线性回归感知机 BP算法

hiterty

已于 2025-05-08 23:04:38 修改

阅读量628

点赞数 14

文章标签：深度学习

于 2025-04-26 23:33:00 首次发布

本文链接：https://blog.csdn.net/hiterty/article/details/147544784

版权

线性回归
- 定义与要素：利用回归分析确定变量间定量关系。涉及训练集（输入数据 x）、输出数据 y、拟合函数（如y=kx+b 或 y=θ⊤x）、训练数据条目数和输入数据维度。
- 代价函数与求解：构造代价函数 J(θ)=21∑i=1N(y(i)−hθ(x(i)))2，目标是找到使 J(θ) 最小的超平面参数 θ。通过令 ∂θ∂J(θ)=0，可得到解析解 θ=(X⊤X)−1X⊤y （适用于维数不高的情况）。
线性二分类问题
- 问题描述：线性分类器通过特征的线性组合进行分类决策，样本通过直线或超平面可分。其与线性回归在输出意义、参数意义和维度上存在差别。
- Sigmoid 函数与代价函数：引入 Sigmoid 函数 y=1+e−z1 （z=θ1x1+θ2x2+θ0 ）将线性函数值转换为 0 - 1 之间的概率。构造代价函数 J(θ)=21∑i=1N(y(i)−hθ(x(i)))2 （hθ(x(i))=1+e−θ⊤x(i)1 ），由于 J(θ) 是非线性的，无法直接求解，采用迭代的梯度下降法，即 θk+1=θk−αdθdJ ，使 J(θ) 逐渐减小。
对数回归与多分类回归
- 对数回归：从概率角度，二分类问题可用条件概率描述，如 P(y(i)=1∣x(i))=hθ(x(i))=1+e−θ⊤x(i)1 。重新修改指标函数为 J(θ)=−∑i(y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))) ，对其最小化得到梯度 ∇θJ(θ)=∑ix(i)(hθ(x(i))−y(i)) 。这一过程基于极大似然估计，取似然函数 L(θ)=∏i=1mp(y(i)∣x(i),θ) ，最大化 L(θ) 等价于最小化 −l(θ) （l(θ)=logL(θ) ）。
- 多分类回归：对于有 k 个标记的分类问题，分类函数为 hθ(x(i))=∑c=1keθc⊤x(i)1eθ1⊤x(i)eθ2⊤x(i)⋮eθk⊤x(i) ，取代价函数 J(θ)=−[∑i=1N∑k=1K1{y(i)=k}log∑j=1Kexp(θ(j)⊤x(i))exp(θ(k)⊤x(i))] ，对应梯度为 ∇θ(k)J(θ)=−∑i=1N[x(i)(1{y(i)=k}−P(y(i)=k∣x(i);θ))] ，这种方式称为 Softmax。代价函数也可简写为交叉熵损失 l(y,y^)=−∑j=1Kyjlogy^j 。
神经元模型
- 模型介绍：人工神经元模型 M - P 模型于 1943 年由 W.McCulloch 和 W.Pitts 提出，公式为 y=f(∑j=1nwjxj−θ) （f(x)={1,0,x≥0x<0 ）。
- 作用函数：包括非对称型 Sigmoid 函数（f(x)=1+e−x1 或 f(x)=1+e−βx1 ，β>0 ）、对称型 Sigmoid 函数（f(x)=1+e−x1−e−x 或 f(x)=1+e−βx1−e−βx ，β>0 ）和对称型阶跃函数（f(x)={+1,−1,x≥0x<0 ）。
- Hebbian 规则：连接权值的调整量与输入和输出的乘积成正比，即 Δw=α⋅x⋅y 。
感知机模型
- 原理：1957 年由 Rosenblatt 提出，用于解决线性分类问题。点到超平面的距离公式为 d=∥w∥w⊤x 。
- 模型与损失函数：感知机模型为 y=f(x)=sign(w⊤x) （sign(x)={−1,1,x<0x≥0 ），定义损失函数 L(w)=−∥w∥1∑y(i)(w⊤x(i)) ，目标是找到使 L(w) 最小的超平面参数 w∗ 。
- 训练过程：输入训练数据集，赋初值 w0 ，按顺序选择数据点判断是否为误分类点，若是则根据 wk+1=wk+ηy(i)x(i) （与 Hebbian 规则相同）更新权值，直到训练集中没有误分类点。但实际中很多问题线性不可分，此时迭代不收敛

问题做答：

1、尝试自行推导第10页PPT中𝛉的求解。

2、线性分类问题处理时为什么没有像回归直接使用最小二乘，而是引入了Sigmoid函数？尝试给予解释。

主要原因与两类问题的目标、输出要求以及模型特性差异有关：

输出性质差异：线性回归旨在预测连续的数值，其输出值本身具有实际意义。例如预测房价，输出的数值直接代表价格。最小二乘法通过最小化预测值与真实值之间的平方误差，能有效拟合数据，使得预测值尽可能接近真实值。而线性分类问题的目标是将样本分类到不同类别，输出是类别标签或属于某类别的概率。如苹果分类问题，结果是判断苹果属于某一类别，不是具体数值。直接使用最小二乘无法满足分类的需求，因为平方误差对于分类任务来说，不能很好地反映分类的准确性。引入 Sigmoid 函数，可以将线性组合的结果映射到 0 - 1 之间，用于表示样本属于某一类别的概率，更符合分类问题的输出要求。
模型决策边界特性：线性回归的最小二乘解确定的是最佳拟合直线（或超平面），目的是使数据点到直线（或超平面）的误差平方和最小。但在分类问题中，需要找到的是能将不同类别样本分开的决策边界（直线或超平面）。最小二乘得到的直线不一定能有效区分不同类别。Sigmoid 函数的特性使其可以将线性函数的值域（-∞, +∞）映射到（0, 1）区间，通过设置阈值（如 0.5），可以方便地确定分类决策边界。当 Sigmoid 函数的输出大于阈值时，判定样本属于一类；小于阈值时，属于另一类，这使得模型能够实现分类功能。
分类问题的非线性本质（部分情况）：虽然线性分类器是基于特征的线性组合进行分类，但实际数据分布可能较为复杂，并非完全线性可分。最小二乘在处理非线性可分的数据时表现不佳。Sigmoid 函数的非线性特性，使得基于它构建的模型能够学习到数据中的非线性关系（尽管只是初步的非线性处理）。它可以对线性组合的结果进行非线性变换，增加模型的表达能力，更好地适应复杂的数据分布，提高分类的准确性。

3.什么是Softmax? 针对多分类问题，给出Softmax输出的图示。

Softmax 是一种用于多分类问题的函数，它将多个神经元的输出，映射为 0-1 之间的概率值，且所有概率值之和为 1，从而可以将其理解为每个类别对应的概率，以实现多分类的功能。

上图是一个简单的多分类问题的softmax使用，一般两个分类用sigmoid就可以了，三个以上用softmax，当然两个分类时二者等价。

4.写出神经元的M-P模型，并与线性回归的表达式进行对比。

相同点

线性组合部分：两者都包含了输入信号与权重（或参数）的线性组合。在 M - P 模型中的\(\sum_{j = 1}^{n}w_{j}x_{j}\) 和线性回归中的\(\theta_{1}x_{1}+\theta_{2}x_{2}+\cdots+\theta_{n}x_{n}\) 本质上都是对输入特征进行加权求和的过程，都体现了输入信号与对应权重的线性关系。

不同点

输出性质：
- 线性回归的输出y是连续的数值，用于预测一个具体的量，例如房价、销售额等。
- M - P 模型的输出是经过激活函数处理后的离散值（通常为 0 或 1），用于表示神经元的激活状态，常用于分类或逻辑判断等问题。
激活函数：
- 线性回归没有激活函数，输出直接是线性组合的结果。
- M - P 模型引入了激活函数\(f(\cdot)\)，通过激活函数将线性组合的结果映射到特定的离散值，从而实现神经元的非线性特性，增加了模型的表达能力，能够处理更复杂的问题。
模型用途：
- 线性回归主要用于回归分析，即根据输入特征预测一个连续的目标值，重点在于找到最佳的拟合直线（或超平面）来最小化预测值与真实值之间的误差。
- M - P 模型是神经网络的基本单元，用于构建更复杂的神经网络结构，可用于解决分类、模式识别等多种机器学习问题，是神经网络实现智能计算的基础。

下面是第二节课内容

多层感知机
- XOR 问题：线性不可分问题，无法用线性分类解决。
- 多层感知机解决 XOR 问题：在输入和输出层间加隐单元构成多层感知器，加一层隐节点的三层网络可解决异或问题。通过特定的权值和阈值设置，各节点输出由输入和权值计算得出，且三层感知器可识别凸多边形或无界凸区域，更多层可识别更复杂图形。还介绍了相关定理，如三层阈值节点网络可实现任意二值逻辑函数，三层 S 型非线性特性节点网络可逼近连续函数或平方可积函数。
多层前馈网络及 BP 算法概述
- 多层前馈网络：多层感知机是多层前馈网络，由输入层、隐层和输出层组成，神经元间权值连接仅在相邻层，若每个神经元连接上一层所有神经元则为全连接网络。
- BP 算法简述：BP 算法是有导师的学习算法，由正向传播和反向传播组成。正向传播是输入信号从输入层经隐层传向输出层，若输出符合期望则学习结束，否则进入反向传播；反向传播是将误差按原连接通路反向计算，用梯度下降法调整各层节点权值和阈值以减小误差。
BP 算法详解
- BP 算法基本思想：选取特定的损失函数，利用梯度下降法更新权值，通过推导得出不同层权值的更新公式。
- 程序示例：详见 D2L 4.2 节多层感知机的从零开始实现。
- 程序使用数据集：介绍了 Fashion - MNIST 数据集，它可替代 MNIST 手写数字集，涵盖 10 种类别共 7 万个不同商品的正面图片，大小、格式和训练集 / 测试集划分与 MNIST 一致。还给出了 MNIST 数据集加载的代码示例。