在机器学习领域,回归和分类是最基础且应用广泛的任务类型。回归用于预测连续值(如房价),而分类则用于预测离散类别(如图像类别)。这两种任务看似不同,但其背后的数学模型和优化思想却有着紧密的联系。本文将从线性回归出发,逐步深入Softmax回归,探讨它们在模型构建、优化方法以及实际应用中的核心原理。
一、线性回归:预测连续值的基石
1.1 什么是线性回归?
线性回归是一种通过线性组合输入特征来预测连续值的模型。例如,在房价预测中,房屋面积、地理位置、房间数量等特征被加权求和,得到一个预测价格。其数学形式可表示为:
\[ y = w_1x_1 + w_2x_2 + \cdots + w_nx_n + b \]
其中,\(w_i\)为权重,\(b\)为偏置,模型的目标是找到一组参数\((w, b)\),使得预测值\(y\)尽可能接近真实值。
1.2 损失函数与优化
为了衡量预测值与真实值的差距,通常使用均方误差(MSE)**作为损失函数:
\[ L = \frac{1}{N}\sum_{i=1}^N (y_i - \hat{y}_i)^2 \]
优化过程则是通过最小化损失函数来调整参数。这里的关键在于梯度下降法:计算损失函数对参数的梯度(即偏导数),并沿负梯度方向更新参数。梯度指向函数值下降最快的方向,通过迭代更新,模型逐步逼近最优解。
1.3 神经网络视角下的线性回归
线性回归可以看作一个单层神经网络:输入层直接连接到输出层,没有隐藏层。这种结构简单高效,但表达能力有限,无法处理复杂的非线性关系。
二、优化算法:梯度下降的奥秘
2.1 梯度下降法
梯度下降的核心思想是“沿着最陡峭的方向下山”。具体流程如下:
1. 计算当前参数下的损失梯度;
2. 沿负梯度方向更新参数:\(w \leftarrow w - \eta \nabla_w L\);
3. 重复上述步骤直至收敛。
其中,学习率(\(\eta\))控制步长。学习率过大会导致震荡,过小则收敛缓慢,需通过实验调整。
2.2 随机梯度下降(SGD)与小批量优化
传统梯度下降需计算整个数据集的梯度,计算成本高。**随机梯度下降(SGD)**每次随机选择一个样本计算梯度,提高了速度但引入噪声。折中的方案是**小批量随机梯度下降**:将数据分为多个小批量,每批计算梯度并更新参数。这种方法既利用了计算资源,又保持了稳定性,成为深度学习的默认优化算法。
三、从回归到分类:Softmax回归的登场
3.1 分类任务的需求
当任务从预测连续值变为预测离散类别时(如手写数字识别),模型需要输出每个类别的**置信度**,并将其转化为概率分布。这就是Softmax回归的使命。
3.2 Softmax运算
Softmax函数将原始输出(称为logits)映射为概率分布。对于输出向量\(\mathbf{o} = [o_1, o_2, \dots, o_k]\),Softmax运算定义为:
\[ \hat{y}_i = \frac{\exp(o_i)}{\sum_{j=1}^k \exp(o_j)} \]
输出满足非负性且和为1,完美契合概率的定义。例如,输入为\([1, -1, 2]\)时,Softmax结果为\([0.26, 0.04, 0.7]\)。
3.3 交叉熵损失函数
分类任务中,**交叉熵损失**取代了均方误差。它衡量预测概率分布与真实分布的差异:
\[ L = -\sum_{i=1}^k y_i \log \hat{y}_i \]
其中,\(y_i\)为真实标签的one-hot编码。交叉熵对错误预测的惩罚更严厉,特别适合分类问题。
四、Softmax回归的实战应用
4.1 经典数据集与任务
MNIST手写数字识别:10分类问题,输入为28x28像素图像,输出为0-9的概率。
ImageNet图像分类:1000类自然物体识别,推动深度学习发展的里程碑任务。
Kaggle竞赛案例:如蛋白质图像分类(28类)、恶意评论分类(7类)等。
4.2 模型结构
Softmax回归是一个单层全连接网络。输入特征与每个输出节点(对应类别)相连,通过Softmax层生成概率。例如,MNIST任务中,输入为784像素(28x28展开),输出层为10个神经元,分别表示数字0-9的置信度。
五、总结:回归与分类的统一视角
线性回归和Softmax回归虽目标不同,但共享相同的优化框架:
1. **模型构建**:基于输入特征的线性组合;
2. **损失函数**:均方误差(回归) vs 交叉熵(分类);
3. **优化方法**:梯度下降及其变体。
在深度学习中,Softmax回归常作为神经网络的最后一层,将隐藏层的抽象特征转化为类别概率。理解这两个模型,不仅是掌握机器学习的基石,也为后续探索卷积网络、循环网络等复杂模型奠定基础。
无论是预测房价还是识别图像,背后的数学之美与工程智慧始终如一:用数据驱动的方式,从不确定性中寻找确定性。