线性回归与Softmax回归核

最新推荐文章于 2025-10-30 16:47:39 发布

原创最新推荐文章于 2025-10-30 16:47:39 发布 · 847 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#回归 #线性回归 #算法

一、线性回归

核心定义与模型

应用场景：典型如房价预测，通过分析房屋特征（如卧室数量、车库面积、学区等）与历史房价数据，估计房屋合理价格。

数学表达式：

单个样本：y = w^Tx + b，其中x为输入特征，w为权重，b为偏置，y为预测值。

多个样本：y = Xw + b，X为样本特征矩阵。

神经网络视角：线性回归可看作单层神经网络，输入层为特征x_1,x_2,...,x_d，输出层为预测值y，权重w_1,w_2,...,w_d连接输入与输出，无隐藏层。

模型训练：损失函数与优化算法

损失函数

作用：量化模型预测值与真实值的差异，训练目标为最小化损失函数。

常见类型：回归任务中多采用平方损失（预测值与真实值之差的平方）。

优化算法：梯度法

核心原理：梯度是全部变量偏导数构成的向量，指示函数值减小最多的方向。通过沿梯度反方向更新参数，逐步寻找损失函数最小值。

关键特性：梯度仅能保证当前方向函数值下降最快，无法直接指向全局最小值，但可通过迭代逼近最优解。

迭代流程：从初始参数位置出发，计算梯度→沿梯度反方向更新参数→在新位置重新计算梯度→重复上述步骤，直至损失函数收敛。

随机梯度下降（SGD）

原理：通过不断在损失函数递减方向更新参数以降低误差，每次迭代使用部分样本计算梯度，提升训练效率。

小批量随机梯度下降

批量值选择：

不可过小：难以充分利用计算资源，梯度估计波动大。

不可过大：浪费计算资源，且可能陷入局部最优。

核心超参数：

批量大小：每次用于计算梯度的样本数量。

学习率：参数更新的步长，需合理设置——过大易震荡不收敛，过小则训练速度过慢。

二、Softmax回归（多类分类模型）

回归与分类的区别

维度回归任务分类任务
输出类型单个连续值多个离散类别
目标估计真实连续值预测样本所属类别
典型场景房价预测、温度预测 ImageNet图像分类（1000类）、MNIST手写数字识别（10类）、蛋白质图像分类（28类）、恶语评论分类（7类）

从线性回归到Softmax回归

输出层设计：输出层神经元数量等于分类任务的类别数，每个神经元输出对应类别的预测置信度。

模型结构：单层全连接神经网络，每个输出o_1,o_2,...,o_k（k为类别数）均依赖所有输入特征x_1,x_2,...,x_d。

Softmax运算

作用：将输出层的置信度转换为符合概率分布的预测值（非负且总和为1），便于后续分类判断。

数学表达式：y_i = \frac{\exp(o_i)}{\sum_{k}\exp(o_k)}，其中o_i为输出层第i个神经元的输出，y_i为第i类的预测概率。

示例：输入置信度[1, -1, 2]，经Softmax运算后得到预测概率[0.26, 0.04, 0.7]。

损失函数

平方损失（L2损失）

计算预测值与真实值之差的平方，适用于回归任务，分类任务中使用易导致优化效率低。

L1损失

计算预测值与真实值之差的绝对值，对异常值的鲁棒性强于平方损失，但在最小值处导数不连续。

Huber损失

结合L1损失与平方损失的优势：预测值与真实值差异较小时用平方损失（平滑优化），差异较大时用L1损失（抗异常值）。

交叉熵损失

适用场景：分类任务的首选损失函数，用于衡量预测概率分布与真实概率分布的差异。

数学表达式：H(p,q) = -\sum p_i \log(q_i)，其中p为真实概率分布，q为模型预测概率分布。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。