南瓜书公式详解------第6章2(支持向量机2)

名词解释----凸二次规划

凸二次规划(Convex Quadratic Programming,CQP)是优化问题的一个子类,其中目标函数是二次的,约束条件是线性的,并且整个问题是凸的。这意味着问题的可行域(所有满足约束条件的点的集合)是凸集,目标函数在其定义域上是凸函数。凸二次规划问题的标准形式可以表示为:

m i n x 1 2 x T Q x − c T x subject to A x ≤ b , \begin{aligned} min_{\boldsymbol{x}} \quad & \frac{1}{2} \boldsymbol{x}^T Q \boldsymbol{x} - \boldsymbol{c}^T \boldsymbol{x} \\ \text{subject to} \quad & A \boldsymbol{x} \leq \boldsymbol{b}, \\ \end{aligned} minxsubject to21xTQxcTxAxb,

其中:

  • x \boldsymbol{x} x 是需要优化的变量向量。
  • Q Q Q 是一个对称且半正定的矩阵,确保目标函数是凸的。
  • c \boldsymbol{c} c 是一个系数向量。
  • A A A 是一个约束矩阵。
  • b \boldsymbol{b} b 是一个约束向量。
    这个公式描述的是一个典型的凸二次规划问题。让我们来详细解释一下公式中的各个部分:
  1. 目标函数
    1 2 x T Q x − c T x \frac{1}{2} \boldsymbol{x}^T Q \boldsymbol{x} - \boldsymbol{c}^T \boldsymbol{x} 21xTQxcTx

    • 这个函数是关于变量向量 x \boldsymbol{x} x 的二次函数。其中, x T Q x \boldsymbol{x}^T Q \boldsymbol{x} xTQx 是一个二次项, Q Q Q 是一个对称的矩阵, x T \boldsymbol{x}^T xT x \boldsymbol{x} x 的转置。
    • − c T x -\boldsymbol{c}^T \boldsymbol{x} cTx 是一个线性项,其中 c \boldsymbol{c} c 是一个常数向量。
  2. 约束条件
    A x ≤ b A \boldsymbol{x} \leq \boldsymbol{b} Axb

    • 这里 A A A 是一个约束矩阵, x \boldsymbol{x} x 是需要优化的变量向量, b \boldsymbol{b} b 是约束向量。
    • 约束条件 A x ≤ b A \boldsymbol{x} \leq \boldsymbol{b} Axb 表示 x \boldsymbol{x} x 必须满足所有由 A A A b \boldsymbol{b} b 定义的不等式约束。
  3. 优化问题类型

    • 这个问题是一个最小化问题,目标是找到使得目标函数值最小的 x \boldsymbol{x} x
    • 由于目标函数是二次的,并且 Q Q Q 矩阵是对称的,如果 Q Q Q 也是半正定的,那么目标函数是凸的。
    • 约束条件 A x ≤ b A \boldsymbol{x} \leq \boldsymbol{b} Axb 定义了一个凸集,因为所有线性不等式的组合仍然是一个凸集。
  4. 求解方法

    • 凸二次规划问题可以使用多种方法求解,包括内点法、梯度投影法、序列二次规划(SQP)、半定规划方法等。
    • 这些方法通常利用了问题的凸性质,确保找到全局最优解。
  5. 应用领域

    • 凸二次规划在许多领域都有应用,例如在机器学习中,支持向量机(SVM)和其他一些算法会将其作为优化问题的一部分。
    • 在经济学和运筹学中,凸二次规划用于资源分配和成本最小化问题。
    • 在工程学中,它用于设计优化和信号处理。

凸二次规划问题由于其凸性质,保证了在满足约束的条件下,总是能找到全局最优解,这使得这类问题在理论和实际应用中都非常重要。

特点

  • 凸性:问题的目标函数和约束集都是凸的,这意味着局部最优解也是全局最优解。
  • 二次:目标函数是二次的,这意味着它可能有一个唯一的最小值或最大值,或者在无限远处趋向于无穷大。
  • 线性约束:所有的约束都是线性的,这简化了问题的求解过程。

解法

  • 内点法:一种用于求解凸优化问题的算法,特别适用于大规模问题。
  • 梯度投影法:利用目标函数的梯度和约束条件的投影来迭代求解。
  • 序列二次规划(SQP):一种迭代算法,每次迭代解决一个二次规划子问题来逼近原问题的最优解。
  • 半正定规划(SDP):当 Q Q Q 矩阵是半正定的,问题可以被视为半正定规划问题。
  • 对偶问题:利用原问题的对偶性质来求解,特别是在对偶问题更易于求解时。

应用

  • 机器学习:在支持向量机(SVM)和其他一些分类算法中,凸二次规划用于求解最优权重。
  • 经济学:在资源分配和成本最小化问题中。
  • 工程学:在设计优化和信号处理中。
  • 控制理论:在状态估计和控制器设计中。

凸二次规划由于其凸性质,保证了找到的解是全局最优解,这使得它在许多实际应用中非常有价值。此外,凸优化问题通常可以通过有效的数值方法求解,这些方法在计算上是可行的,特别是对于大规模问题。

名词解释----软间隔优化

软间隔优化是支持向量机(SVM)中的一种方法,它通过引入松弛变量(slack variables)来允许一些样本点违反间隔规则,从而提高模型的泛化能力。这种方法相对于硬间隔优化(没有违反间隔规则的情况)更加灵活,能够处理那些数据点不是完全线性可分的情况。

软间隔优化问题的数学表述

软间隔优化问题可以表示为以下形式的凸二次规划问题:

min ⁡ w , b , ξ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i s.t. y i ( w T x i + b ) ≥ 1 − ξ i , ξ i ≥ 0 , i = 1 , 2 , … , m \begin{aligned} \min_{\boldsymbol{w}, b, \xi_i} \quad & \frac{1}{2}\|\boldsymbol{w}\|^2 + C \sum_{i=1}^{m} \xi_i \\ \text{s.t.} \quad & y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i, \\ & \xi_i \geq 0, \quad i = 1, 2, \ldots, m \end{aligned} w,b,ξimins.t.21w2+Ci=1mξiyi(wTxi+b)1ξi,ξi0,i=1,2,,m

其中:

  • w \boldsymbol{w} w 是权重向量。
  • b b b 是偏置项。
  • ξ i \xi_i ξi 是第 i i i 个样本的松弛变量,表示该样本点违反间隔规则的程度。
  • C C C 是正则化参数,用于控制误分类的惩罚程度和模型复杂度之间的权衡。
  • m m m 是样本的总数。

优化目标

优化目标包括两部分:

  1. 正则化项 1 2 ∥ w ∥ 2 \frac{1}{2}\|\boldsymbol{w}\|^2 21w2,用于控制模型的复杂度,防止过拟合。
  2. 误差项 C ∑ i = 1 m ξ i C \sum_{i=1}^{m} \xi_i Ci=1mξi,表示所有样本点违反间隔规则的代价。参数 C C C 决定了我们愿意接受多少误差。较大的 C C C 值意味着模型对误差更敏感,可能会更严格地尝试正确分类所有样本,但这可能导致过拟合。

约束条件

  • y i ( w T x i + b ) ≥ 1 − ξ i y_i(\boldsymbol{w}^T \boldsymbol{x}_i + b) \geq 1 - \xi_i yi(wTxi+b)1ξi:这个不等式确保了每个样本点 x i \boldsymbol{x}_i xi 在间隔边界上或其内部,或者在间隔边界之外但不超过 ξ i \xi_i ξi 的距离。
  • ξ i ≥ 0 \xi_i \geq 0 ξi0:松弛变量必须是非负的。

解决方法

软间隔优化问题可以通过多种方法求解,包括:

  • 拉格朗日乘子法:将问题转化为对偶问题,然后使用梯度下降法或其他优化算法求解。
  • 序列最小优化(SMO):一种流行的启发式算法,用于求解大规模SVM问题。
  • 二次规划算法:如内点法、梯度投影法等,适用于求解一般的二次规划问题。

结果解释

求解完成后,我们可以得到权重向量 w \boldsymbol{w} w 和偏置项 b b b。只有那些对应的 ξ i > 0 \xi_i > 0 ξi>0 的样本点(即支持向量)会影响最终的决策边界。这些支持向量定义了模型的决策边界,而其他样本点则对模型的训练影响较小。

软间隔优化通过引入松弛变量提供了一种在模型复杂度和分类误差之间进行权衡的方法,使得SVM能够更好地适应实际应用中的各种数据分布情况。

式6.35

min ⁡ w , b , ξ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i  s.t.  y i ( w T x i + b ) ⩾ 1 − ξ i ξ i ⩾ 0 , i = 1 , 2 , … , m \begin{aligned} \min _{\boldsymbol{w}, b, \xi_{i}} & \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i} \\ \text { s.t. } & y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) \geqslant 1-\xi_{i} \\ & \xi_{i} \geqslant 0, i=1,2, \ldots, m \end{aligned} w,b,ξimin s.t. 21w2+Ci=1mξiyi(wTxi+b)1ξiξi0,i=1,2,,m
这个公式描述的是支持向量机(SVM)中的一个软间隔优化问题。SVM是一种常用的监督学习模型,用于分类和回归任务。这个优化问题的目标是找到最佳的权重向量 w \boldsymbol{w} w 和偏置项 b b b,同时引入松弛变量 ξ i \xi_{i} ξi 来允许一些分类误差,以获得更好的泛化能力。下面是公式的详细解释:

  1. 目标函数
    min ⁡ w , b , ξ i 1 2 ∥ w ∥ 2 + C ∑ i = 1 m ξ i \min _{\boldsymbol{w}, b, \xi_{i}} \frac{1}{2}\|\boldsymbol{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i} w,b,ξimin21w2+Ci=1mξi
    这个函数由两部分组成:

    • 第一部分 1 2 ∥ w ∥ 2 \frac{1}{2}\|\boldsymbol{w}\|^{2} 21w2 是正则化项,用于避免过拟合,其中 w \boldsymbol{w} w 是权重向量。
    • 第二部分 C ∑ i = 1 m ξ i C \sum_{i=1}^{m} \xi_{i} Ci=1mξi 是误差项的加权和,其中 C C C 是一个正的调节参数,用于控制分类误差和正则化项之间的权衡, ξ i \xi_{i} ξi 是第 i i i 个样本的松弛变量。
  2. 约束条件
    y i ( w T x i + b ) ⩾ 1 − ξ i ξ i ⩾ 0 , i = 1 , 2 , … , m \begin{aligned} y_{i}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b\right) & \geqslant 1-\xi_{i} \\ \xi_{i} & \geqslant 0, \quad i=1,2, \ldots, m \end{aligned} yi(wTxi+b)ξi1ξi0,i=1,2,,m

    • 第一个约束条件 y i ( w T x i + b ) ⩾ 1 − ξ i y_{i}(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b) \geqslant 1-\xi_{i} yi(wTxi+b)1ξi 确保了每个样本点 x i \boldsymbol{x}_{i} xi 在间隔边界上或其内部,其中 y i y_{i} yi 是样本的真实标签, w T x i + b \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}+b wTxi+b 是模型的预测值, 1 − ξ i 1-\xi_{i} 1ξi 是考虑了松弛变量后的间隔边界。
    • 第二个约束条件 ξ i ⩾ 0 \xi_{i} \geqslant 0 ξi0 确保了松弛变量是非负的。

这个优化问题是一个凸二次规划问题,可以通过多种方法求解,例如使用拉格朗日乘子法或者专门的二次规划算法。求解完成后,可以得到权重向量 w \boldsymbol{w} w 和偏置项 b b b,以及每个样本的松弛变量 ξ i \xi_{i} ξi。只有那些对应的 ξ i > 0 \xi_{i} > 0 ξi>0 的样本点(即支持向量)会影响最终的决策边界。

软间隔SVM相比于硬间隔SVM,允许一些样本点可以位于间隔边界之外,但需要付出额外的代价(由 C C C 控制),这样可以获得更好的泛化能力,尤其是在数据不是完全线性可分的情况下。

式6.40

max ⁡ α ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j s . t . ∑ i = 1 m α i y i = 0 0 ≤ α i ≤ C i = 1 , 2 , … , m \begin{aligned} \max_{\boldsymbol{\alpha}}&\sum _{i=1}^m\alpha_i-\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \\ s.t. &\sum_{i=1}^m \alpha_i y_i=0 \\ & 0 \leq\alpha_i \leq C \quad i=1,2,\dots ,m \end{aligned} αmaxs.t.i=1mαi21i=1mj=1mαiαjyiyjxiTxji=1mαiyi=00αiCi=1,2,,m
这个公式是支持向量机(SVM)中的对偶问题(dual problem)的标准形式,它是一个凸二次规划问题。让我们来详细解释一下公式中的各个部分:

  1. 目标函数
    max ⁡ α ( ∑ i = 1 m α i − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j ) \max_{\boldsymbol{\alpha}} \left( \sum _{i=1}^m\alpha_i - \frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j \right) αmax(i=1mαi21i=1mj=1mαiαjyiyjxiTxj)

    • 这个函数由两部分组成:第一部分 ∑ i = 1 m α i \sum _{i=1}^m\alpha_i i=1mαi 是所有样本的拉格朗日乘子 α i \alpha_i αi 的和。
    • 第二部分 − 1 2 ∑ i = 1 m ∑ j = 1 m α i α j y i y j x i T x j -\frac {1}{2}\sum_{i=1 }^{m}\sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j 21i=1mj=1mαiαjyiyjxiTxj 是正则化项,用于避免过拟合。这里 x i T x j \boldsymbol{x}_i^T\boldsymbol{x}_j xiTxj 是样本 x i \boldsymbol{x}_i xi x j \boldsymbol{x}_j xj 的内积, y i y_i yi y j y_j yj 是对应的标签。
  2. 约束条件

    • 第一个约束条件 ∑ i = 1 m α i y i = 0 \sum_{i=1}^m \alpha_i y_i = 0 i=1mαiyi=0 确保了对偶问题中的间隔一致性,即正样本和负样本的权重乘以它们的标签后求和等于零。
    • 第二个约束条件 0 ≤ α i ≤ C 0 \leq \alpha_i \leq C 0αiC 确保了所有样本的拉格朗日乘子 α i \alpha_i αi 都是非负的,并且不会超过参数 C C C。参数 C C C 是一个正的调节参数,用于控制模型对分类误差的容忍度。
  3. 优化问题类型

    • 这个问题是一个最大化问题,目标是找到一组最优的拉格朗日乘子 α i \alpha_i αi,使得目标函数值最大。
    • 由于目标函数是二次的,并且约束条件是线性的,这个问题是一个凸二次规划问题。
  4. 求解方法

    • 凸二次规划问题可以使用多种方法求解,例如内点法、梯度投影法、序列二次规划(SQP)等。
  5. 结果解释

    • 求解完成后,我们可以得到一组最优的拉格朗日乘子 α i ∗ \alpha_i^* αi。只有那些对应的 α i ∗ > 0 \alpha_i^* > 0 αi>0 的样本点(即支持向量)会影响最终的决策边界。
  6. 应用

    • 这个对偶问题在SVM中用于找到最佳的权重向量 w \boldsymbol{w} w 和偏置项 b b b,从而定义决策边界,用于对新样本进行分类。

在SVM中,对偶问题的求解非常重要,因为它不仅提供了一种有效的方法来找到最优解,而且还允许我们识别出哪些样本点是支持向量,这些点是定义决策边界的关键。

式6.41

{ α i ⩾ 0 , μ i ⩾ 0 y i f ( x i ) − 1 + ξ i ⩾ 0 α i ( y i f ( x i ) − 1 + ξ i ) = 0 ξ i ⩾ 0 , μ i ξ i = 0 \left\{\begin{array}{l}\alpha_{i} \geqslant 0, \quad \mu_{i} \geqslant 0 \\ y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i} \geqslant 0 \\ \alpha_{i}\left(y_{i} f\left(\boldsymbol{x}_{i}\right)-1+\xi_{i}\right)=0 \\ \xi_{i} \geqslant 0, \mu_{i} \xi_{i}=0\end{array}\right. αi0,μi0yif(xi)1+ξi0αi(yif(xi)1+ξi)=0ξi0,μiξi=0
这组条件是支持向量机(SVM)中软间隔分类问题所用到的KKT(Karush-Kuhn-Tucker)条件。KKT条件是一类解决约束优化问题的充分条件,它们在拉格朗日乘子法中起着核心作用。下面是对这些条件的解释:

  1. 非负性约束
    α i ⩾ 0 , μ i ⩾ 0 \alpha_{i} \geqslant 0, \quad \mu_{i} \geqslant 0 αi0,μi0

    • α i \alpha_{i} αi 是与原始问题中的不等式约束 y i f ( x i ) ≥ 1 y_{i} f(\boldsymbol{x}_{i}) \geq 1 yif(xi)1 相关联的拉格朗日乘子。
    • μ i \mu_{i} μi 是与新引入的松弛变量 ξ i \xi_{i} ξi 相关联的拉格朗日乘子。
  2. 间隔和松弛变量的约束
    y i f ( x i ) − 1 + ξ i ⩾ 0 y_{i} f(\boldsymbol{x}_{i}) - 1 + \xi_{i} \geqslant 0 yif(xi)1+ξi0

    • 这个条件放宽了间隔的约束,允许 ξ i \xi_{i} ξi 为正值,从而允许一些样本点可以位于间隔边界之外。
  3. 互补松弛条件
    α i ( y i f ( x i ) − 1 + ξ i ) = 0 \alpha_{i} (y_{i} f(\boldsymbol{x}_{i}) - 1 + \xi_{i}) = 0 αi(yif(xi)1+ξi)=0

    • 这个条件表明,如果样本 x i \boldsymbol{x}_{i} xi 正确分类并且不违反间隔约束(即 y i f ( x i ) ≥ 1 y_{i} f(\boldsymbol{x}_{i}) \geq 1 yif(xi)1),则对应的松弛变量 ξ i \xi_{i} ξi 必须为零,此时 α i \alpha_{i} αi 可以是任意值(包括零)。
    • 如果 α i > 0 \alpha_{i} > 0 αi>0,则 y i f ( x i ) − 1 + ξ i y_{i} f(\boldsymbol{x}_{i}) - 1 + \xi_{i} yif(xi)1+ξi 必须为零,意味着样本点恰好位于间隔边界上,此时 ξ i \xi_{i} ξi 取正值。
  4. 松弛变量的非负性和乘子的互补性
    ξ i ⩾ 0 , μ i ξ i = 0 \xi_{i} \geqslant 0, \quad \mu_{i} \xi_{i} = 0 ξi0,μiξi=0

    • 第一个条件确保松弛变量 ξ i \xi_{i} ξi 非负。
    • 第二个条件是另一个互补松弛条件,表明如果松弛变量 ξ i > 0 \xi_{i} > 0 ξi>0,则对应的拉格朗日乘子 μ i \mu_{i} μi 必须为零;反之,如果 μ i > 0 \mu_{i} > 0 μi>0,则 ξ i \xi_{i} ξi 必须为零。

这些条件共同确保了SVM优化问题可以找到在保持最大间隔的同时,允许一定量误分类的解。在实际应用中,这些条件有助于构建SVM的对偶问题,并在求解过程中识别出哪些样本点是支持向量,即那些对最终决策边界有决定性影响的样本点。

式6.52(条件)

{ α i ( f ( x i ) − y i − ϵ − ξ i ) = 0 α ^ i ( y i − f ( x i ) − ϵ − ξ ^ i ) = 0 α i α ^ i = 0 , ξ i ξ ^ i = 0 ( C − α i ) ξ i = 0 , ( C − α ^ i ) ξ ^ i = 0 \left\{\begin{array}{l} {\alpha_{i}\left(f\left(\boldsymbol{x}_{i}\right)-y_{i}-\epsilon-\xi_{i}\right)=0} \\ {\hat{\alpha}_{i}\left(y_{i}-f\left(\boldsymbol{x}_{i}\right)-\epsilon-\hat{\xi}_{i}\right)=0} \\ {\alpha_{i} \hat{\alpha}_{i}=0, \xi_{i} \hat{\xi}_{i}=0} \\ {\left(C-\alpha_{i}\right) \xi_{i}=0,\left(C-\hat{\alpha}_{i}\right) \hat{\xi}_{i}=0} \end{array}\right. αi(f(xi)yiϵξi)=0α^i(yif(xi)ϵξ^i)=0αiα^i=0,ξiξ^i=0(Cαi)ξi=0,(Cα^i)ξ^i=0
这组条件是支持向量机(SVM)中的一种正则化形式,通常用于处理ε-不敏感损失函数(epsilon-insensitive loss function)的优化问题。这种形式的优化问题在SVM中用于处理违反间隔边界的样本点,同时引入了正则化参数C来控制模型的复杂度。下面是对这些条件的解释:

  1. 正则化条件
    α i ( f ( x i ) − y i − ϵ − ξ i ) = 0 \alpha_{i}\left(f(\boldsymbol{x}_{i})-y_{i}-\epsilon-\xi_{i}\right)=0 αi(f(xi)yiϵξi)=0
    α ^ i ( y i − f ( x i ) − ϵ − ξ ^ i ) = 0 \hat{\alpha}_{i}\left(y_{i}-f(\boldsymbol{x}_{i})-\epsilon-\hat{\xi}_{i}\right)=0 α^i(yif(xi)ϵξ^i)=0

    • 这些条件是正则化项,其中 α i \alpha_{i} αi α ^ i \hat{\alpha}_{i} α^i是拉格朗日乘子, f ( x i ) f(\boldsymbol{x}_{i}) f(xi)是模型对第 i i i个样本的预测值, y i y_{i} yi是真实标签, ϵ \epsilon ϵ是ε-不敏感损失函数中的阈值, ξ i \xi_{i} ξi ξ ^ i \hat{\xi}_{i} ξ^i是松弛变量。
  2. 间隔条件
    α i α ^ i = 0 , ξ i ξ ^ i = 0 \alpha_{i} \hat{\alpha}_{i}=0, \quad \xi_{i} \hat{\xi}_{i}=0 αiα^i=0,ξiξ^i=0

    • 这些条件确保了对于每个样本点,要么考虑正间隔的违反(使用 α i \alpha_{i} αi ξ i \xi_{i} ξi),要么考虑负间隔的违反(使用 α ^ i \hat{\alpha}_{i} α^i ξ ^ i \hat{\xi}_{i} ξ^i),但不能同时考虑。
  3. C-正则化条件
    ( C − α i ) ξ i = 0 , ( C − α ^ i ) ξ ^ i = 0 (C-\alpha_{i}) \xi_{i}=0, \quad (C-\hat{\alpha}_{i}) \hat{\xi}_{i}=0 (Cαi)ξi=0,(Cα^i)ξ^i=0

    • 这些条件是C-正则化项,其中C是正则化参数。它们确保了当拉格朗日乘子 α i \alpha_{i} αi α ^ i \hat{\alpha}_{i} α^i达到C时,对应的松弛变量 ξ i \xi_{i} ξi ξ ^ i \hat{\xi}_{i} ξ^i必须为零。这限制了拉格朗日乘子的最大值,从而控制了模型的复杂度和对误分类的容忍度。

这些条件共同构成了SVM优化问题的一部分,用于在保持模型复杂度的同时,允许一定量的误差存在。通过求解这个优化问题,我们可以找到最佳的模型参数,包括权重向量、偏置项以及拉格朗日乘子。只有那些对应的 α i > 0 \alpha_{i} > 0 αi>0 α ^ i > 0 \hat{\alpha}_{i} > 0 α^i>0的样本点会成为支持向量,对最终的决策边界有决定性的影响。

这种正则化形式在SVM中非常重要,因为它允许模型在保持最大间隔的同时,对一些样本点的分类误差进行容忍,从而提高模型的泛化能力。

名词解释----表示定理

表示定理(Representation Theorem)在数学和物理学中是一个非常重要的概念,它通常指的是一种情况:一个数学对象可以通过另一种形式或者一组基来表示。在不同的领域,表示定理有着不同的具体含义和应用。以下是一些常见的表示定理:

  1. 线性代数中的表示定理
    在线性代数中,表示定理可能指的是任何一个线性变换都可以表示为一个矩阵,或者一个向量空间的任何向量都可以表示为基向量的线性组合。

  2. 群论中的表示定理
    在群论中,表示定理是指任何群都可以通过线性变换(即矩阵)来表示。具体来说,每个群都有一个与之对应的表示空间,群中的每个元素都可以表示为该空间中的一个矩阵。

  3. 泛函分析中的表示定理
    在泛函分析中,著名的Gelfand-Naimark表示定理表明,任何交换的C*-代数可以表示为某些希尔伯特空间上的有界线性算子的代数。

  4. 量子力学中的表示定理
    在量子力学中,表示定理指出量子态可以用波函数来表示,而量子算符可以用矩阵来表示。

  5. 机器学习中的表示定理
    在机器学习领域,特别是关于特征表示和核方法,表示定理可能指的是数据点可以通过特征映射被映射到更高维的空间,以便线性模型能够在这个新空间中解决问题。

  6. 图论中的表示定理
    在图论中,表示定理可能涉及到图的某些特性可以通过矩阵(如图的邻接矩阵)来表示。

  7. 优化理论中的表示定理
    在优化理论中,表示定理可能指的是某些优化问题可以通过拉格朗日函数或者哈密顿函数来表示。

在不同的上下文中,表示定理提供了一种将复杂对象或概念转化为更易于分析和计算的形式的方法。这使得我们可以利用已知的工具和理论来研究这些对象,从而简化问题的求解过程。

式6.65

w = ∑ i = 1 m α i ϕ ( x i ) \boldsymbol{w}=\sum_{i=1}^{m} \alpha_{i} \phi\left(\boldsymbol{x}_{i}\right) w=i=1mαiϕ(xi)
这个公式表示的是权重向量 w \boldsymbol{w} w 在某些基于特征映射的机器学习模型中的计算方式。其中, w \boldsymbol{w} w 通常用于线性模型中定义决策边界。下面是公式中各部分的详细解释:

  • w \boldsymbol{w} w:权重向量,用于确定模型的决策边界或预测函数。

  • m m m:训练样本的总数。

  • α i \alpha_{i} αi:与每个训练样本 x i \boldsymbol{x}_{i} xi 相关联的系数。在某些模型中,这些系数是通过优化过程得到的,例如在支持向量机(SVM)中, α i \alpha_{i} αi 是拉格朗日乘子,它们在优化问题的对偶形式中被求解。

  • ϕ ( x i ) \phi(\boldsymbol{x}_{i}) ϕ(xi):特征映射函数,它将原始输入空间中的样本 x i \boldsymbol{x}_{i} xi 映射到一个更高维的特征空间。这个映射允许模型在原始空间中处理非线性问题,因为在特征空间中问题可能变得线性可分。

  • ∑ i = 1 m α i ϕ ( x i ) \sum_{i=1}^{m} \alpha_{i} \phi(\boldsymbol{x}_{i}) i=1mαiϕ(xi):权重向量的计算是通过所有训练样本的特征映射的加权和来得到的。每个训练样本的权重由对应的 α i \alpha_{i} αi 确定。

这个公式在机器学习中的应用非常广泛,特别是在以下领域:

  1. 支持向量机(SVM):在SVM中,如果使用核技巧(kernel trick), ϕ \phi ϕ 表示核函数,它可以隐式地将数据映射到高维空间,而无需显式地计算映射后的坐标。

  2. 线性模型:在一般的线性模型中, w \boldsymbol{w} w 可以表示为训练样本的线性组合,用于预测新样本的输出。

  3. 特征工程:在特征工程中, ϕ \phi ϕ 可以表示一系列转换和特征提取操作,旨在提高模型的性能。

  4. 正则化方法:在某些正则化框架中, α i \alpha_{i} αi 可能受到正则化项的影响,以防止模型过拟合。

这个公式强调了权重向量 w \boldsymbol{w} w 是如何从训练数据中学习得到的,并且展示了特征映射在模型中的重要性。通过这种方式,模型能够捕捉数据中的复杂模式,并用于分类、回归或其他预测任务。

式6.66

μ ^ 0 = 1 m 0 K 1 0 \hat{\boldsymbol{\mu}}_{0}=\frac{1}{m_{0}} \mathbf{K} \mathbf{1}_{0} μ^0=m01K10
这个公式在机器学习中通常出现在统计学习理论或支持向量机(SVM)的上下文中,特别是在使用核方法处理数据时。下面是对公式中各个部分的解释:

  • μ ^ 0 \hat{\boldsymbol{\mu}}_{0} μ^0:这是某个量(可能是均值向量或其他统计量)的估计值。

  • m 0 m_{0} m0:这是一个正整数,通常表示某个集合中元素的数量,例如正类样本的数量。

  • K \mathbf{K} K:核矩阵(Kernel Matrix),其中的元素 K i j = k ( x i , x j ) K_{ij} = k(\boldsymbol{x}_i, \boldsymbol{x}_j) Kij=k(xi,xj) 表示核函数 k k k 在样本 x i \boldsymbol{x}_i xi x j \boldsymbol{x}_j xj 之间的值。核函数用于测量样本之间的相似性或距离。

  • 1 0 \mathbf{1}_{0} 10:这是一个长度为 m 0 m_{0} m0 的向量,其中所有元素都是1。这个向量通常用来表示对所有元素的加权和。

公式 μ ^ 0 = 1 m 0 K 1 0 \hat{\boldsymbol{\mu}}_{0}=\frac{1}{m_{0}} \mathbf{K} \mathbf{1}_{0} μ^0=m01K10 计算的是核空间中所有点的加权平均,其中权重由核矩阵 K \mathbf{K} K 决定。这个公式可以被理解为在特征空间中计算质心或均值向量的一种方法。

在某些机器学习算法中,比如SVM,核技巧允许算法在高维空间中有效地处理数据,而无需显式地计算高维空间中的坐标。这个公式可能是在这种情况下用来估计特征空间中的均值向量,从而用于进一步的计算,例如在软间隔支持向量机中计算间隔宽度或偏置项。

此外,这个公式也可能出现在谱聚类(Spectral Clustering)的上下文中,其中核矩阵可以由图的拉普拉斯矩阵导出,并且 μ ^ 0 \hat{\boldsymbol{\mu}}_{0} μ^0 可能被用来计算聚类中心。

式6.67

μ ^ 1 = 1 m 1 K 1 1 \hat{\boldsymbol{\mu}}_{1}=\frac{1}{m_{1}} \mathbf{K} \mathbf{1}_{1} μ^1=m11K11
这个公式与之前提到的 μ ^ 0 \hat{\boldsymbol{\mu}}_{0} μ^0 的公式类似,通常用于机器学习中的核方法,特别是在统计学习或支持向量机(SVM)的背景下。这里的公式用于计算另一个集合的特征空间中的均值向量 μ ^ 1 \hat{\boldsymbol{\mu}}_{1} μ^1。下面是公式中各个部分的解释:

  • μ ^ 1 \hat{\boldsymbol{\mu}}_{1} μ^1:这是集合1的均值向量的估计,集合1可能代表不同的类别或数据子集。

  • m 1 m_{1} m1:这是一个正整数,表示集合1中元素的数量,例如负类样本的数量。

  • K \mathbf{K} K:核矩阵,其中的元素 K i j = k ( x i , x j ) K_{ij} = k(\boldsymbol{x}_i, \boldsymbol{x}_j) Kij=k(xi,xj) 表示核函数 k k k 在样本 x i \boldsymbol{x}_i xi x j \boldsymbol{x}_j xj 之间的值。核函数用于测量样本之间的相似性或距离。

  • 1 1 \mathbf{1}_{1} 11:这是一个长度为 m 1 m_{1} m1 的向量,其中所有元素都是1。这个向量通常用来表示对集合1中所有元素的加权和。

公式 μ ^ 1 = 1 m 1 K 1 1 \hat{\boldsymbol{\mu}}_{1}=\frac{1}{m_{1}} \mathbf{K} \mathbf{1}_{1} μ^1=m11K11 计算的是特征空间中集合1所有点的加权平均,其中权重由核矩阵 K \mathbf{K} K 决定。这个公式可以被理解为在特征空间中计算质心或均值向量的一种方法。

在机器学习算法中,尤其是在SVM中,这种计算可以用于:

  • 确定不同类别的特征空间中的中心点。
  • 计算类别之间的距离或间隔,这在设计分类器时非常重要。
  • 在某些聚类算法中,如谱聚类,计算不同子空间的中心点。

核技巧允许算法在高维空间中有效地处理数据,而无需显式地计算高维空间中的坐标,这在处理非线性问题时特别有用。通过这种方式,算法可以利用数据在高维空间中的结构,即使原始数据在低维空间中是线性不可分的。

式6.70

max ⁡ α J ( α ) = α T M α α T N α \max _{\boldsymbol{\alpha}} J(\boldsymbol{\alpha})=\frac{\boldsymbol{\alpha}^{\mathrm{T}} \mathbf{M} \boldsymbol{\alpha}}{\boldsymbol{\alpha}^{\mathrm{T}} \mathbf{N} \boldsymbol{\alpha}} αmaxJ(α)=αTNααTMα

这个公式表示的是一个优化问题,其中目标函数 J ( α ) J(\boldsymbol{\alpha}) J(α) 是变量向量 α \boldsymbol{\alpha} α 的函数,涉及到两个矩阵 M \mathbf{M} M N \mathbf{N} N。这种形式的优化问题通常出现在机器学习中的一些算法里,特别是涉及核方法和特征映射的上下文中。下面是对公式中各个部分的解释:

  • α \boldsymbol{\alpha} α:优化变量,通常是一个向量,其元素 α i \alpha_i αi 可以视为拉格朗日乘子,在某些情况下,它们可能代表模型的权重。

  • M \mathbf{M} M:一个与问题相关的矩阵,其元素 M i j M_{ij} Mij 可能与数据点的成对交互有关,例如在某些算法中, M M M 可以是核矩阵。

  • N \mathbf{N} N:另一个与问题相关的矩阵,其元素 N i j N_{ij} Nij 可能与数据点的成对距离或相似度有关,或者与正则化有关。

  • α T M α \boldsymbol{\alpha}^{\mathrm{T}} \mathbf{M} \boldsymbol{\alpha} αTMα:分子表示 α \boldsymbol{\alpha} α M \mathbf{M} M 的二次形式,可以看作是模型的误差项或拟合优度的度量。

  • α T N α \boldsymbol{\alpha}^{\mathrm{T}} \mathbf{N} \boldsymbol{\alpha} αTNα:分母表示 α \boldsymbol{\alpha} α N \mathbf{N} N 的二次形式,通常与正则化有关,用于控制模型的复杂度,防止过拟合。

优化问题的目标:

优化问题的目标是最大化目标函数 J ( α ) J(\boldsymbol{\alpha}) J(α)。这通常意味着我们希望找到一个向量 α \boldsymbol{\alpha} α,它能够平衡模型的拟合优度(由 M \mathbf{M} M 表示)和模型的复杂度(由 N \mathbf{N} N 表示)。

求解方法:

求解这类优化问题通常需要使用数值优化技术,例如梯度下降、拉格朗日乘子法或专门的二次规划算法。在某些情况下,如果 N \mathbf{N} N 是正定的,这个问题可以被看作是一个凸优化问题,其解可以通过拉格朗日对偶性来获得。

应用领域:

这种类型的目标函数可能出现在以下领域:

  1. 支持向量机(SVM):在SVM中,如果使用核技巧, M \mathbf{M} M N \mathbf{N} N 可以是与数据点成对交互相关的核矩阵。

  2. 正则化回归:在回归问题中, N \mathbf{N} N 可能表示一个与正则化项相关的矩阵,例如在岭回归(Ridge Regression)或LASSO中。

  3. 谱聚类:在谱聚类中,类似的优化问题可能出现在特征向量的计算过程中。

注意事项:

  • 这个优化问题可能需要特定的约束条件,例如 α \boldsymbol{\alpha} α 的范数约束或其他线性约束。
  • 矩阵 M \mathbf{M} M N \mathbf{N} N 的性质(如是否对称、正定等)对优化问题的求解有重要影响。
  • 在实际应用中,可能需要对 M \mathbf{M} M N \mathbf{N} N 进行调整,以确保优化问题是良定义的,并且有解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值