Modified Logistic Regression: An Approximation to SVM and Its Applications in Large-Scale Text Categ

Jian Zhang jian.zhang@cs.cmu.edu
Rong Jin rong@cs.cmu.edu
Yiming Yang yiming@cs.cmu.edu
Alex G. Hauptmann alex@cs.cmu.edu

School of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA 15213 USA

Abstract

Logistic Regression (LR) 在统计学中被广泛使用多年,由于与支持向量机 (SVM) 和 AdaBoost 的关系密切,最近在机器学习界得到了广泛的研究。 在本文中,我们使用 LR 的修改版本通过一系列无约束优化问题来逼近 SVM 的优化。 我们证明了我们的近似将收敛到 SVM,并提出了一种称为“MLR-CG”的迭代算法,该算法使用共轭梯度作为其内循环。 **多类版本“MMLR-CG”**也是经过简单修改后得到的。 我们在不同的文本分类集合上将 MLR-CG 与 SVMlight 进行了比较,并表明当训练示例的数量非常大时,我们的算法比 SVMlight 高效得多。 还报告了多类版本 MMLR-CG 的结果。

7. Concluding Remarks

在本文中,我们使用 LR 的修改版本来近似优化 SVM,并证明它会收敛到 SVM。 同时,我们提出了一种称为“MLR-CG”的迭代算法,该算法非常简单且鲁棒。 我们在几个文本分类集合上将 MLR-CG 算法与 SVMlight 中实现的算法进行了比较,我们的结果表明,当训练集非常大时,我们的算法特别有效,并且它可以具有非常接近 SVMlight 获得的目标值。 我们的方法可以很容易地扩展到多类版本,并且生成的 MMLR-CG 在多个网页集合上进行了测试。

一步 CG 的时间复杂度为 O(nm)(n 和 m 分别是训练示例和特征的数量 【特征数量?】)。 理论上,很难同时获得 MLR-CG 和 SVMlight 的时间复杂度。 但根据经验,如果 CG 步骤的数量是恒定的(这对我们所有的实验都是如此),我们的 MLR-CG 算法的总时间复杂度也将是 O(nm)。 对于 SVMlight,迭代次数变化很大,经验表明它在训练实例数 n 方面是超线性(super linear ) 的(Joachims,1998b)。

我们应该指出,由于 LR 的对偶形式(dual form )确实存在,我们的方法可以修改为非线性核版本。 我们没有在本文中对其进行研究,因为线性核 SVM 是文本分类中最先进的分类器之一,并且已被证明在该任务中至少与其他核 SVM 一样有效。

综上所述,MLR-CG 算法在非常大的训练集合的情况下非常有效,这使得数百万文档(如 Yahoo! 网页)的训练更适用。 需要进一步研究以探索多类 SVM 在文本分类中的应用

1. Introduction

Logistic Regression 是一种传统的统计工具,由于其与 SVM (Vapnik, 1999) 和 AdaBoost (Freund, 1996) 的密切关系,最近在机器学习中得到了普及,可以称为“大边距分类器”,因为它们明确或隐含地追求边距的概念。 大边距分类器不仅得到理论分析的支持,而且在实践中也被证明是有前途的

Vapnik (1999) 在最小化损失函数方面比较了 LR 和 SVM,并表明 LR 的损失函数可以很好地近似为 SVM 多节点损失 (SVMn)。 弗里德曼等人。 (1998) 讨论了 SVM、LR 和 boosting 在它们不同的损失函数之上。 柯林斯等人。 (2000) 给出了 boosting 和 LR 的一般框架,其中每个学习问题都根据 Bregman 距离的优化进行转换。 黎巴嫩等人。 (2002) 表明 AdaBoost 和 LR 之间的唯一区别是后者需要将模型归一化为概率分布。

在这里,我们展示了通过简单的修改,LR 也可以用来逼近 SVM。 具体来说,我们使用 LR 的修改版本通过引入一系列平滑函数来逼近 SVM,可以证明这些平滑函数可以均匀地收敛到 SVM 目标函数。 在此基础上,我们进一步证明了他们的解序列会收敛到 SVM 的解。 因此,我们可以使用简单的无约束凸优化技术来解决 SVM 优化问题。 具体来说,我们提出了一种名为“MLR-CG”的新算法,在大规模文本分类集合的情况下,它比 SVMlight 更有效。 我们还展示了 MLR-CG 算法可以很容易地扩展到其多类版本“MMLR-CG”

本文的其余部分安排如下:第 2 节简要回顾了 LR 和 SVM,并讨论了一些相关工作。 第 3 节介绍了 LR 的修改版本,证明了我们的逼近的收敛性,并提出了 MLR-CG 算法。 第 4 节将我们的算法扩展到多类版本,这表明多类 SVM 可以通过简单的算法来实现。 第 5 节介绍了我们的数据集,第 6 节报告了几个文本分类集合的实验结果。 第 7 节结束。

2. Reviews and Related Works

2.1. Logistic Regression

逻辑回归可以应用于真实和二元响应,其输出后验概率可以方便地处理并提供给其他系统。 它试图对类标签的条件概率进行建模,给出其观察结果:
在这里插入图片描述其中 x = (x1, x2, . . . , xm) 是数据向量(默认情况下,我们使用列向量),m 是特征数,y ∈ {+1, -1} 是类标签。 w = (w1, w2, … , wm) 和 b 分别是决策超平面的权重向量和截距。

正则化 LR 被训练通过计算:

在这里插入图片描述注意上述目标函数 O(w) 的 Hessian 矩阵为:

在这里插入图片描述其中 I 是单位矩阵。 由于 λ > 0,上述 Hessian 矩阵是正定的,这意味着正则化 LR 的目标函数具有严格的凸性 [【?】],因此其解的唯一性和全局性(Luenberger, 1973)。

2.2. SVM

支持向量机是基于结构风险最小化而不是经验风险最小化(Vapnik,1999)的新一代学习系统。 它不仅在理论上有根据,而且在实践中也很有效。 它在许多实际应用中取得了非常好的性能,包括文本分类(Joachims,1998a),这是我们的研究重点。

线性核的支持向量机的原始形式可以描述为:

在这里插入图片描述利用隐含约束,我们可以将上述目标函数转化为:

在这里插入图片描述其中 max{0, 1 − yi(wT x + b)} 可以认为是一个实例的 SVM 损失,第二项 λwT w 是正则化项。

由于其损失函数的不可微分,SVM的拟合通常以对偶形式求解:
在这里插入图片描述
2.3. Related Works

我们的方法在精神上类似于优化文献中的惩罚算法,尤其是 Cominetti & Dussault (1994) 提出的“指数惩罚”算法。 重点是用一系列无约束的优化问题来解决约束优化问题

对于一般的优化问题:

在这里插入图片描述
其中可行集 C 是根据函数不等式定义的:在这里插入图片描述指数惩罚算法试图解决无约束问题在这里插入图片描述当 rk → 0 时,已经证明无约束解的序列在一定条件下会收敛到原约束问题的解。 将他们的方法应用于 SVM 原始问题,我们需要最小化以下函数:在这里插入图片描述通过设置 ∂E(rk ) / ∂ξi = 0 (R ̈atsch et al., 2000),我们将得到与等式 1 类似的公式。但是,正如我们稍后将展示的,我们的算法不需要那些指数惩罚项,这可能 正如 Cominetti & Dussault 所指出的,当 rk → 0 时会导致溢出问题。 虽然这个问题可以通过某种特别的方式来解决,但它被认为是他们方法的一个缺点。 综上所述,我们将证明我们的算法非常简单,适用于类似 SVM 的优化问题,并且它的收敛性得到了保证。

3. Modified Logistic Regression

在本节中,我们首先通过构建一系列优化问题来展示其解决方案收敛到 SVM 的解决方案。 因此,SVM 可以通过简单的无约束优化技术来解决。 然后我们提出了我们简单的 MLR-CG 算法,它使用 CG 作为它的内循环

为了简化我们的推导,我们从现在开始使用增广的权重向量 w = (b, w1, w2, …, wm) 和增广的数据向量 x = (1, x1, x2, …, xm) 除非另有规定。 为了保持 SVM 优化问题不变,其形式变为在这里插入图片描述因此截距 w0 = b 不包括在正则化项中。 我们也打算不惩罚正则化 LR 中的截距 w0 来逼近 SVM:
在这里插入图片描述3.1. Approximating SVM Loss Function
从之前的讨论中我们可以看出,损失函数在 SVM 和 LR 中起着重要作用。在这里插入图片描述在这里插入图片描述图 1 显示了 SVM 损失函数可以通过以下“修改后的 LR”(Zhang,2001)的损失来近似:在这里插入图片描述
如果我们可以近似 SVM 损失函数 :在这里插入图片描述
使用上述函数序列{gγ},则可以使用简单的无约束优化技术解决问题。

3.2. Convergence

在这里插入图片描述

分别表示 SVM 和修正 LR 的优化目标函数,我们现在证明通过计算 Oγ=k (w) (k = 1, 2, …) 的最优解,我们能够找到 Osvm( w)。

下面我们用 gk(x, y, w) 和 Ok (w) 来表示 gγ=k(x, y, w) 和 Oγ=k(w),并用 ^wk 和 ̄w 来分别表示 Osvm( w) 和 Ok (w) 的最优解

命题 1 函数序列 {gk(x, y, w)} (k = 1, 2, . . .) 是单调递减的,并且一致(uniformly)收敛到 SVM 损失 gsvm(x, y, w);函数序列 {Ok (w)} 也单调收敛到 SVM 目标函数 Osvm(w)。此外,对于任何 γ > 0,我们有在这里插入图片描述证明在附录中

定理 2 (1) 目标函数 {Ok (w)} 的解集是唯一的。 (2) 假设 {^wk} 是目标函数{Ok(w)}的解集,则序列{Ok(^wk)}收敛到目标函数Osvm(w)的最小值。

证明草图

(1)目标函数Ok (w)的Hessian矩阵是:
在这里插入图片描述

其中 I∗ 与 (m + 1) × (m + 1) 单位矩阵相同,只是其第一行第一列的元素为零,这是由非正则化截距 w0 产生的。对于任何给定的非零列向量 v = (v0, v1, … , vm),很容易证明 vT H v > 0,因为 xi = (1, xi1, xi2, … , xim) 是第一个元素为常量 1 的增广向量。因此,在 λ > 0 的情况下,Hessian 矩阵是正定的,这意味着目标函数 Ok (w) 的严格凸性。因此,该解将具有全局性和唯一性。

(2) 设̄w_hat是Osvm(w) 的解,则通过{Ok(w)} 一致收敛到Osvm(w)(命题1)直接得出序列{Ok (̄w)} 收敛到 Osvm (̄w)。因为在这里插入图片描述我们得出结论:在这里插入图片描述
在这里插入图片描述
证明草图 (关于凸函数的解的收敛的一般结果可以在 Rochafellar (1970) 中找到,例如定理 27.2。 具体来说,^wk 和 SVM 解集(凸的)之间的最小距离收敛到零)

假设 ̄wu 是 SVM 解的未增广部分。 假设 Ok (w) 在 ^wk 处的梯度为零,根据多元泰勒定理,存在 0 ≤ θ ≤ 1 使得:在这里插入图片描述如果我们在两端取 limit ,我们得到在这里插入图片描述这也意味着 ̄wu 的唯一性

注意 SVM 解决方案的 ̄b 可能不是唯一的,Burges 和 Crisp (1999) 对 SVM 解决方案的唯一性进行了更详细的讨论。 我们可以看到,正则化系数 λ 也会影响我们的近似(approximation)的收敛速度。

3.3. MLR-CG Algorithm

我们的 MLR-CG 算法完全遵循上述收敛证明。 也就是说,我们通过解决一系列子优化问题来计算 SVM 的解决方案。 特别是,我们使用共轭梯度 (CG,Conjugate Gradient ) 来解决每个子优化问题 Oγ (w)

CG (Nocedal & Wright, 1999) 是解决大规模非线性优化问题最流行的方法之一。 更重要的是,Minka (2001) 将其与其他拟合 LR 的方法进行了比较,发现它比其他方法更有效。

三个最著名的共轭方向是 Fletcher-Reeves (FR)、Polak-Rbiere (PR) 和 Hestenes-Stiefel (HS)。 在我们的实验中,我们发现 HS 方向比其他两个方向更有效。

我们在下面列出了我们的 MLR-CG 算法,它是一种以 CG 为内循环的迭代算法在这里插入图片描述在实践中,我们应该从小的 γ 开始,不要将 γ 增加到无穷大,原因有几个。一个原因是当 γ 很大时,Hessian 矩阵是病态的( ill-conditioned),这将导致我们的算法不适用。从小的 γ 开始,逐渐增大,会导致稳定的解。另一个原因是,根据命题 1,对于任何 w,|Oγ (w) − Osvm(w)| ≤ ln 2 / γ 。所以我们有: |Oγ ( ^wγ ) − Osvm( ̄w)| ≤ |Oγ ( ̄w) − Osvm( ̄w)| ≤ ln 2 / γ 。例如,当 γ = 200 时,最多为 0.003,这对我们的问题已经没有影响。稍后我们将在我们的实验中证明,这种近似不会降低我们训练好的分类器的性能。我们不会在每个 CG 步骤之后增加 γ,因为我们应该让 CG 至少运行几个步骤以充分利用其寻找共轭方向的能力;而且我们不需要等到 Oγ (.) 收敛后才改变 γ。在我们的实验中,我们将 δ 和 l 都设置为 10。每次改变 γ 时,都应该重新初始化 CG。

在我们的实验中,我们使用 200 个 CG 步骤(即外循环的 200/l = 20 次迭代)作为停止标准。 也可以使用其他标准,例如权重向量或目标值的变化。

4. Multiclass Version

现实世界的应用程序通常需要 C > 2 类的分类。 一种方法是将多类分类问题视为一组二分类问题,使用 1-versus-rest 方法(或更复杂,如 ECOC)来构造 C 分类器。 或者,我们可以通过选择适当的模型直接构建 C-way分类器 【?】。 后者通常被认为更自然,可以在一次优化中解决。 对于 SVM,在某些情况下 (Weston & Watkins, 1999),多类 SVM 可以完美地分类训练数据,而 1-versus-rest 方法则无法准确无误地分类。

多类 SVM (Weston & Watkins, 1999; Vapnik, 1998) 试图用相同的边距概念直接对 C 路分类问题进行建模。 对于第 k 个类,它尝试构造一个线性函数 fk(x) = wT kx,以便对于给定的数据向量 x,通过选择对应于函数最大值的类来进行预测 {fk(x)}: y = arg maxk {fk(x)}, (k=1,2,…,C)。

按照 Weston & Watkins 的符号,我们可以得到多类 SVM 的原始形式如下:在这里插入图片描述
和我们之前做的一样,它可以转化成在这里插入图片描述与我们在第 3 节中所做的类似,我们使用以下方法来近似 SVM:在这里插入图片描述可以证明,上述目标函数是凸 w.r.t. 它的变量 W = (w1, . . . , wC ) ∈ RC(m+1)×1。 它不是严格凸的,即如果在所有类的截距上加上一个常数,它的值不会改变。 对于多类 SVM 也是如此。 然而,定理 2.2 和 3 仍然成立,因此我们的 MLR-CG 算法被扩展到它的多类版本“MMLR-CG”

5. Datasets and Preprocessing

我们对上述所有数据集使用二进制值特征,并通过信息增益选择了 500 个特征。

它还支持稀疏矩阵表示,这是处理文本集合的优势。

此外,先前的研究 (Joachims, 1998b) 表明,像 SMO (Platt, 1999) 这样的算法在训练实例数量方面似乎与 SVMlight 共享相似的缩放模式。

我们在图 2 中绘制了算法 MLR-CG 的 Osvm(wt) 与训练时间 t 的关系。从图中我们可以看到,我们的 MLR-CG 非常快速地收敛到其最终目标。 在图 2 中,我们还将 SVMlight 的最终目标值绘制为一条直线,其实际训练时间见表 2。

由于 SVMlight 在该类别上的失败,我们只绘制了 GCAT 类别的 MLR-CG 的训练时间

特别是,对于类别数量较少的集合,MMLR-CG 表现良好,而对于类别较多的集合,它的过度拟合很差,因为我们观察到它的训练 Micro-F1 和 Macro-F1 都在 90% 以上,即使对于 Hoovers-255 . 我们还报告在与 MMLR-CG 算法相同的条件下,SVMlight 使用 1-versus-rest 方法的结果如表 3 所示。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值