线性回归与Softmax回归核

一、线性回归

核心定义与模型

        应用场景:典型如房价预测,通过分析房屋特征(如卧室数量、车库面积、学区等)与历史房价数据,估计房屋合理价格。

        数学表达式:

        单个样本:y = w^Tx + b,其中x为输入特征,w为权重,b为偏置,y为预测值。

        多个样本:y = Xw + b,X为样本特征矩阵。

        神经网络视角:线性回归可看作单层神经网络,输入层为特征x_1,x_2,...,x_d,输出层为预测值y,权重w_1,w_2,...,w_d连接输入与输出,无隐藏层。

模型训练:损失函数与优化算法
损失函数

        作用:量化模型预测值与真实值的差异,训练目标为最小化损失函数。

        常见类型:回归任务中多采用平方损失(预测值与真实值之差的平方)。

优化算法:梯度法

        核心原理:梯度是全部变量偏导数构成的向量,指示函数值减小最多的方向。通过沿梯度反方向更新参数,逐步寻找损失函数最小值。

        关键特性:梯度仅能保证当前方向函数值下降最快,无法直接指向全局最小值,但可通过迭代逼近最优解。

        迭代流程:从初始参数位置出发,计算梯度→沿梯度反方向更新参数→在新位置重新计算梯度→重复上述步骤,直至损失函数收敛。

随机梯度下降(SGD)

        原理:通过不断在损失函数递减方向更新参数以降低误差,每次迭代使用部分样本计算梯度,提升训练效率。

小批量随机梯度下降

        批量值选择:

        不可过小:难以充分利用计算资源,梯度估计波动大。

        不可过大:浪费计算资源,且可能陷入局部最优。

        核心超参数:

        批量大小:每次用于计算梯度的样本数量。

        学习率:参数更新的步长,需合理设置——过大易震荡不收敛,过小则训练速度过慢。

二、Softmax回归(多类分类模型)

回归与分类的区别

维度 回归任务 分类任务 
输出类型 单个连续值 多个离散类别 
目标 估计真实连续值 预测样本所属类别 
典型场景 房价预测、温度预测 ImageNet图像分类(1000类)、MNIST手写数字识别(10类)、蛋白质图像分类(28类)、恶语评论分类(7类) 

从线性回归到Softmax回归

        输出层设计:输出层神经元数量等于分类任务的类别数,每个神经元输出对应类别的预测置信度。

        模型结构:单层全连接神经网络,每个输出o_1,o_2,...,o_k(k为类别数)均依赖所有输入特征x_1,x_2,...,x_d。

Softmax运算

        作用:将输出层的置信度转换为符合概率分布的预测值(非负且总和为1),便于后续分类判断。

        数学表达式:y_i = \frac{\exp(o_i)}{\sum_{k}\exp(o_k)},其中o_i为输出层第i个神经元的输出,y_i为第i类的预测概率。

        示例:输入置信度[1, -1, 2],经Softmax运算后得到预测概率[0.26, 0.04, 0.7]。

损失函数
平方损失(L2损失)

        计算预测值与真实值之差的平方,适用于回归任务,分类任务中使用易导致优化效率低。

L1损失

        计算预测值与真实值之差的绝对值,对异常值的鲁棒性强于平方损失,但在最小值处导数不连续。

Huber损失

        结合L1损失与平方损失的优势:预测值与真实值差异较小时用平方损失(平滑优化),差异较大时用L1损失(抗异常值)。

交叉熵损失

        适用场景:分类任务的首选损失函数,用于衡量预测概率分布与真实概率分布的差异。

        数学表达式:H(p,q) = -\sum p_i \log(q_i),其中p为真实概率分布,q为模型预测概率分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值