详读西瓜书+南瓜书第3章——线性回归

在这里,我们来深入探讨线性模型的相关内容,这章涵盖了从基础线性回归到更复杂的分类任务模型。我们会逐步分析其数学公式和实际应用场景。

3.1 基本形式

线性模型的核心是通过属性的线性组合来预测结果。具体形式为:

其中,w 是权重向量,代表每个属性的重要性,x 是输入特征,b 是偏置项。

3.2 线性回归

线性回归的目的是找到最合适的权重 www 和偏置 bbb,使得模型预测的值 f(x) 尽量接近真实值 y。通过最小化均方误差来实现这一目标,均方误差(MSE)定义为:

通过对 w 和 b 求导并令偏导数为0,可以得到最优的解。对于单属性问题:多元线性回归的情况更加复杂,可以使用矩阵形式表示并通过最小二乘法求解,最终的闭式解为:

3.3 对数几率回归

对数几率回归(Logistic Regression)适用于二分类问题。通过一个可微函数(Sigmoid函数)将线性回归的预测值转换为概率:

这个函数将输入值映射到 000 到 111 之间,输出代表事件发生的概率。

对数几率回归的核心公式为:

左边的对数项称为“几率”,反映了样本作为正例的相对可能性。

3.4 线性判别分析 (LDA)

线性判别分析的目标是通过将样本投影到一条直线上进行分类,最大化类间的差异并最小化类内的差异。投影后的线性函数可以表示为:

其中 w 是投影方向,通过最大化以下目标函数求得:

其中 Sb​ 是类间散度矩阵,Sw是类内散度矩阵。通过求解可以得到最优的投影向量 w。

3.5 多分类学习

多分类任务可以通过将其分解为多个二分类任务来解决。常见的策略包括:

  1. OvO(One-vs-One):将每两个类别进行配对,训练 N(N−1)/2 个分类器。
  2. OvR(One-vs-Rest):每次将一个类别作为正例,其他类别作为反例,训练 N 个分类器。
  3. MvM(Many-vs-Many):将多个类别组合为正类和反类,通过纠错输出码设计来优化分类器。

3.6 类别不平衡问题

在类别不平衡的场景下,直接训练模型可能导致分类性能偏向多数类。常用的方法包括:

  1. 欠采样:减少多数类样本。
  2. 过采样:增加少数类样本。
  3. 数据重采样:通过随机化样本来平衡类别。

以上内容涵盖了线性模型的关键部分,包括线性回归、对数几率回归、线性判别分析和多分类学习。它们在实际应用中被广泛用于分类与回归任务,同时可以通过正则化、采样等技术进一步优化模型的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值