Modified Logistic Regression: An Approximation to SVM and Its Applications in Large-Scale Text Categ

哈哈哈hhhhhh

于 2022-01-09 11:47:20 发布

阅读量560

点赞数

分类专栏：论文文章标签：支持向量机算法机器学习

本文链接：https://blog.csdn.net/breeze21/article/details/122371340

版权

论文专栏收录该内容

23 篇文章 1 订阅

订阅专栏

Jian Zhang jian.zhang@cs.cmu.edu
Rong Jin rong@cs.cmu.edu
Yiming Yang yiming@cs.cmu.edu
Alex G. Hauptmann alex@cs.cmu.edu

School of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA 15213 USA

Abstract

Logistic Regression (LR) 在统计学中被广泛使用多年，由于与支持向量机 (SVM) 和 AdaBoost 的关系密切，最近在机器学习界得到了广泛的研究。在本文中，我们使用 LR 的修改版本通过一系列无约束优化问题来逼近 SVM 的优化。我们证明了我们的近似将收敛到 SVM，并提出了一种称为“MLR-CG”的迭代算法，该算法使用共轭梯度作为其内循环。 **多类版本“MMLR-CG”**也是经过简单修改后得到的。我们在不同的文本分类集合上将 MLR-CG 与 SVMlight 进行了比较，并表明当训练示例的数量非常大时，我们的算法比 SVMlight 高效得多。还报告了多类版本 MMLR-CG 的结果。

7. Concluding Remarks

在本文中，我们使用 LR 的修改版本来近似优化 SVM，并证明它会收敛到 SVM。同时，我们提出了一种称为“MLR-CG”的迭代算法，该算法非常简单且鲁棒。我们在几个文本分类集合上将 MLR-CG 算法与 SVMlight 中实现的算法进行了比较，我们的结果表明，当训练集非常大时，我们的算法特别有效，并且它可以具有非常接近 SVMlight 获得的目标值。我们的方法可以很容易地扩展到多类版本，并且生成的 MMLR-CG 在多个网页集合上进行了测试。

一步 CG 的时间复杂度为 O(nm)（n 和 m 分别是训练示例和特征的数量 【特征数量？】）。理论上，很难同时获得 MLR-CG 和 SVMlight 的时间复杂度。但根据经验，如果 CG 步骤的数量是恒定的（这对我们所有的实验都是如此），我们的 MLR-CG 算法的总时间复杂度也将是 O(nm)。对于 SVMlight，迭代次数变化很大，经验表明它在训练实例数 n 方面是超线性(super linear ) 的（Joachims，1998b)。

我们应该指出，由于 LR 的对偶形式(dual form )确实存在，我们的方法可以修改为非线性核版本。我们没有在本文中对其进行研究，因为线性核 SVM 是文本分类中最先进的分类器之一，并且已被证明在该任务中至少与其他核 SVM 一样有效。

综上所述，MLR-CG 算法在非常大的训练集合的情况下非常有效，这使得数百万文档（如 Yahoo! 网页）的训练更适用。需要进一步研究以探索多类 SVM 在文本分类中的应用

1. Introduction

Logistic Regression 是一种传统的统计工具，由于其与 SVM (Vapnik, 1999) 和 AdaBoost (Freund, 1996) 的密切关系，最近在机器学习中得到了普及，可以称为“大边距分类器”，因为它们明确或隐含地追求边距的概念。大边距分类器不仅得到理论分析的支持，而且在实践中也被证明是有前途的。

Vapnik (1999) 在最小化损失函数方面比较了 LR 和 SVM，并表明 LR 的损失函数可以很好地近似为 SVM 多节点损失 (SVMn)。弗里德曼等人。 (1998) 讨论了 SVM、LR 和 boosting 在它们不同的损失函数之上。柯林斯等人。 (2000) 给出了 boosting 和 LR 的一般框架，其中每个学习问题都根据 Bregman 距离的优化进行转换。黎巴嫩等人。 (2002) 表明 AdaBoost 和 LR 之间的唯一区别是后者需要将模型归一化为概率分布。

在这里，我们展示了通过简单的修改，LR 也可以用来逼近 SVM。具体来说，我们使用 LR 的修改版本通过引入一系列平滑函数来逼近 SVM，可以证明这些平滑函数可以均匀地收敛到 SVM 目标函数。在此基础上，我们进一步证明了他们的解序列会收敛到 SVM 的解。因此，我们可以使用简单的无约束凸优化技术来解决 SVM 优化问题。具体来说，我们提出了一种名为“MLR-CG”的新算法，在大规模文本分类集合的情况下，它比 SVMlight 更有效。我们还展示了 MLR-CG 算法可以很容易地扩展到其多类版本“MMLR-CG”

本文的其余部分安排如下：第 2 节简要回顾了 LR 和 SVM，并讨论了一些相关工作。第 3 节介绍了 LR 的修改版本，证明了我们的逼近的收敛性，并提出了 MLR-CG 算法。第 4 节将我们的算法扩展到多类版本，这表明多类 SVM 可以通过简单的算法来实现。第 5 节介绍了我们的数据集，第 6 节报告了几个文本分类集合的实验结果。第 7 节结束。

2. Reviews and Related Works

2.1. Logistic Regression

逻辑回归可以应用于真实和二元响应，其输出后验概率可以方便地处理并提供给其他系统。它试图对类标签的条件概率进行建模，给出其观察结果：
在这里插入图片描述其中 x = (x1, x2, . . . , xm) 是数据向量(默认情况下，我们使用列向量)，m 是特征数，y ∈ {+1, -1} 是类标签。 w = (w1, w2, … , wm) 和 b 分别是决策超平面的权重向量和截距。

正则化 LR 被训练通过计算：

在这里插入图片描述注意上述目标函数 O(w) 的 Hessian 矩阵为：

在这里插入图片描述其中 I 是单位矩阵。由于 λ > 0，上述 Hessian 矩阵是正定的，这意味着正则化 LR 的目标函数具有严格的凸性 [【？】]，因此其解的唯一性和全局性(Luenberger, 1973)。

2.2. SVM

支持向量机是基于结构风险最小化而不是经验风险最小化（Vapnik，1999）的新一代学习系统。它不仅在理论上有根据，而且在实践中也很有效。它在许多实际应用中取得了非常好的性能，包括文本分类（Joachims，1998a），这是我们的研究重点。

带线性核的支持向量机的原始形式可以描述为:

在这里插入图片描述利用隐含约束，我们可以将上述目标函数转化为:

在这里插入图片描述其中 max{0, 1 − yi(wT x + b)} 可以认为是一个实例的 SVM 损失，第二项 λwT w 是正则化项。

由于其损失函数的不可微分，SVM的拟合通常以对偶形式求解：
在这里插入图片描述
2.3. Related Works

我们的方法在精神上类似于优化文献中的惩罚算法，尤其是 Cominetti & Dussault (1994) 提出的“指数惩罚”算法。 重点是用一系列无约束的优化问题来解决约束优化问题。

对于一般的优化问题：

在这里插入图片描述
其中可行集 C 是根据函数不等式定义的：指数惩罚算法试图解决无约束问题：当 rk → 0 时，已经证明无约束解的序列在一定条件下会收敛到原约束问题的解。将他们的方法应用于 SVM 原始问题，我们需要最小化以下函数：在这里插入图片描述 通过设置 ∂E(rk ) / ∂ξi = 0 (R ̈atsch et al., 2000)，我们将得到与等式 1 类似的公式。但是，正如我们稍后将展示的，我们的算法不需要那些指数惩罚项，这可能正如 Cominetti & Dussault 所指出的，当 rk → 0 时会导致溢出问题。虽然这个问题可以通过某种特别的方式来解决，但它被认为是他们方法的一个缺点。综上所述，我们将证明我们的算法非常简单，适用于类似 SVM 的优化问题，并且它的收敛性得到了保证。

3. Modified Logistic Regression

在本节中，我们首先通过构建一系列优化问题来展示其解决方案收敛到 SVM 的解决方案。因此，SVM 可以通过简单的无约束优化技术来解决。然后我们提出了我们简单的 MLR-CG 算法，它使用 CG 作为它的内循环。

为了简化我们的推导，我们从现在开始使用增广的权重向量 w = (b, w1, w2, …, wm) 和增广的数据向量 x = (1, x1, x2, …, xm) 除非另有规定。为了保持 SVM 优化问题不变，其形式变为在这里插入图片描述因此截距 w0 = b 不包括在正则化项中。我们也打算不惩罚正则化 LR 中的截距 w0 来逼近 SVM：
3.1. Approximating SVM Loss Function
从之前的讨论中我们可以看出，损失函数在 SVM 和 LR 中起着重要作用。图 1 显示了 SVM 损失函数可以通过以下“修改后的 LR”（Zhang，2001）的损失来近似：在这里插入图片描述
如果我们可以近似 SVM 损失函数：
使用上述函数序列{gγ}，则可以使用简单的无约束优化技术解决问题。

3.2. Convergence

让在这里插入图片描述

分别表示 SVM 和修正 LR 的优化目标函数，我们现在证明通过计算 Oγ=k (w) (k = 1, 2, …) 的最优解，我们能够找到 Osvm( w）。

下面我们用 gk(x, y, w) 和 Ok (w) 来表示 gγ=k(x, y, w) 和 Oγ=k(w)，并用 ^wk 和 ̄w 来分别表示 Osvm( w) 和 Ok (w) 的最优解。

命题 1 函数序列 {gk(x, y, w)} (k = 1, 2, . . .) 是单调递减的，并且一致(uniformly)收敛到 SVM 损失 gsvm(x, y, w)；函数序列 {Ok (w)} 也单调收敛到 SVM 目标函数 Osvm(w)。此外，对于任何 γ > 0，我们有在这里插入图片描述 证明在附录中

定理 2 (1) 目标函数 {Ok (w)} 的解集是唯一的。 (2) 假设 {^wk} 是目标函数{Ok(w)}的解集，则序列{Ok(^wk)}收敛到目标函数Osvm(w)的最小值。

证明草图

(1)目标函数Ok (w)的Hessian矩阵是：
在这里插入图片描述

其中 I∗ 与 (m + 1) × (m + 1) 单位矩阵相同，只是其第一行第一列的元素为零，这是由非正则化截距 w0 产生的。对于任何给定的非零列向量 v = (v0, v1, … , vm)，很容易证明 vT H v > 0，因为 xi = (1, xi1, xi2, … , xim) 是第一个元素为常量 1 的增广向量。因此，在 λ > 0 的情况下，Hessian 矩阵是正定的，这意味着目标函数 Ok (w) 的严格凸性。因此，该解将具有全局性和唯一性。

(2) 设̄w_hat是Osvm(w) 的解，则通过{Ok(w)} 一致收敛到Osvm(w)（命题1）直接得出序列{Ok (̄w)} 收敛到 Osvm (̄w)。因为 在这里插入图片描述我们得出结论:

证明草图 (关于凸函数的解的收敛的一般结果可以在 Rochafellar (1970) 中找到，例如定理 27.2。具体来说，^wk 和 SVM 解集（凸的）之间的最小距离收敛到零)

假设 ̄wu 是 SVM 解的未增广部分。假设 Ok (w) 在 ^wk 处的梯度为零，根据多元泰勒定理，存在 0 ≤ θ ≤ 1 使得：在这里插入图片描述如果我们在两端取 limit ，我们得到这也意味着 ̄wu 的唯一性。

注意 SVM 解决方案的 ̄b 可能不是唯一的，Burges 和 Crisp (1999) 对 SVM 解决方案的唯一性进行了更详细的讨论。我们可以看到，正则化系数 λ 也会影响我们的近似(approximation)的收敛速度。

3.3. MLR-CG Algorithm

我们的 MLR-CG 算法完全遵循上述收敛证明。也就是说，我们通过解决一系列子优化问题来计算 SVM 的解决方案。特别是，我们使用共轭梯度 (CG，Conjugate Gradient ) 来解决每个子优化问题 Oγ (w)

CG (Nocedal & Wright, 1999) 是解决大规模非线性优化问题最流行的方法之一。更重要的是，Minka (2001) 将其与其他拟合 LR 的方法进行了比较，发现它比其他方法更有效。

三个最著名的共轭方向是 Fletcher-Reeves (FR)、Polak-Rbiere (PR) 和 Hestenes-Stiefel (HS)。在我们的实验中，我们发现 HS 方向比其他两个方向更有效。

我们在下面列出了我们的 MLR-CG 算法，它是一种以 CG 为内循环的迭代算法。在这里插入图片描述在实践中，我们应该从小的 γ 开始，不要将 γ 增加到无穷大，原因有几个。一个原因是当 γ 很大时，Hessian 矩阵是病态的( ill-conditioned)，这将导致我们的算法不适用。从小的 γ 开始，逐渐增大，会导致稳定的解。另一个原因是，根据命题 1，对于任何 w，|Oγ (w) − Osvm(w)| ≤ ln 2 / γ 。所以我们有： |Oγ ( ^wγ ) − Osvm( ̄w)| ≤ |Oγ ( ̄w) − Osvm( ̄w)| ≤ ln 2 / γ 。例如，当 γ = 200 时，最多为 0.003，这对我们的问题已经没有影响。稍后我们将在我们的实验中证明，这种近似不会降低我们训练好的分类器的性能。我们不会在每个 CG 步骤之后增加 γ，因为我们应该让 CG 至少运行几个步骤以充分利用其寻找共轭方向的能力；而且我们不需要等到 Oγ (.) 收敛后才改变 γ。在我们的实验中，我们将 δ 和 l 都设置为 10。每次改变 γ 时，都应该重新初始化 CG。

在我们的实验中，我们使用 200 个 CG 步骤（即外循环的 200/l = 20 次迭代）作为停止标准。也可以使用其他标准，例如权重向量或目标值的变化。

4. Multiclass Version

现实世界的应用程序通常需要 C > 2 类的分类。一种方法是将多类分类问题视为一组二分类问题，使用 1-versus-rest 方法（或更复杂，如 ECOC）来构造 C 分类器。或者，我们可以通过选择适当的模型直接构建 C-way分类器 【？】。后者通常被认为更自然，可以在一次优化中解决。对于 SVM，在某些情况下 (Weston & Watkins, 1999)，多类 SVM 可以完美地分类训练数据，而 1-versus-rest 方法则无法准确无误地分类。

多类 SVM (Weston & Watkins, 1999; Vapnik, 1998) 试图用相同的边距概念直接对 C 路分类问题进行建模。对于第 k 个类，它尝试构造一个线性函数 fk(x) = wT kx，以便对于给定的数据向量 x，通过选择对应于函数最大值的类来进行预测 {fk(x)}: y = arg maxk {fk(x)}, (k=1,2,…,C)。

按照 Weston & Watkins 的符号，我们可以得到多类 SVM 的原始形式如下：在这里插入图片描述
和我们之前做的一样，它可以转化成与我们在第 3 节中所做的类似，我们使用以下方法来近似 SVM：可以证明，上述目标函数是凸 w.r.t. 它的变量 W = (w1, . . . , wC ) ∈ RC(m+1)×1。它不是严格凸的，即如果在所有类的截距上加上一个常数，它的值不会改变。对于多类 SVM 也是如此。然而，定理 2.2 和 3 仍然成立，因此我们的 MLR-CG 算法被扩展到它的多类版本“MMLR-CG”

5. Datasets and Preprocessing

我们对上述所有数据集使用二进制值特征，并通过信息增益选择了 500 个特征。

它还支持稀疏矩阵表示，这是处理文本集合的优势。

此外，先前的研究 (Joachims, 1998b) 表明，像 SMO (Platt, 1999) 这样的算法在训练实例数量方面似乎与 SVMlight 共享相似的缩放模式。

我们在图 2 中绘制了算法 MLR-CG 的 Osvm(wt) 与训练时间 t 的关系。从图中我们可以看到，我们的 MLR-CG 非常快速地收敛到其最终目标。在图 2 中，我们还将 SVMlight 的最终目标值绘制为一条直线，其实际训练时间见表 2。

由于 SVMlight 在该类别上的失败，我们只绘制了 GCAT 类别的 MLR-CG 的训练时间

特别是，对于类别数量较少的集合，MMLR-CG 表现良好，而对于类别较多的集合，它的过度拟合很差，因为我们观察到它的训练 Micro-F1 和 Macro-F1 都在 90% 以上，即使对于 Hoovers-255 . 我们还报告在与 MMLR-CG 算法相同的条件下，SVMlight 使用 1-versus-rest 方法的结果如表 3 所示。

哈哈哈hhhhhh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Modified Logistic Regression: An Approximation to SVM and Its Applications in Large-Scale Text Categ

Jian Zhang jian.zhang@cs.cmu.eduRong Jin rong@cs.cmu.eduYiming Yang yiming@cs.cmu.eduAlex G. Hauptmann alex@cs.cmu.eduSchool of Computer Science, Carnegie Mellon University, 5000 Forbes Avenue, Pittsburgh, PA 15213 USAAbstract
复制链接

扫一扫