葫芦书笔记----经典算法

最新推荐文章于 2023-02-02 16:18:14 发布

沃·夏澈德

最新推荐文章于 2023-02-02 16:18:14 发布

阅读量331

点赞数 1

分类专栏：葫芦书笔记文章标签： SVM 逻辑回归决策树

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/108915162

版权

葫芦书笔记专栏收录该内容

13 篇文章

订阅专栏

本文探讨了SVM在处理线性可分问题时的特性，指出其投影到超平面上可能不保持线性可分，并证明了在特定条件下存在一组参数使SVM训练误差为0。同时，解释了训练误差为0的SVM分类器的存在性。接着，对比了逻辑回归与线性回归的异同，特别是在处理多标签分类问题时的策略。最后，介绍了决策树的启发函数，如ID3、C4.5和CART，并概述了剪枝方法以平衡模型的准确性和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经典算法

SVM

在空间中线性可分的两类点，分别向SVM分类的超平面做投影，这些点在超平面上的投影仍然是线性可分的吗？

速记：不是

详细：一个简单的反例：设二维空间中只有两个样本点，每个点各属于一类任务，此时SVM的分类超平面（直线）就是两个样本点连线的中垂线，两个点在分类面（直线）上的投影会落到这条直线上的同一个点，自然不是线性可分的。

是否存在一组参数使SVM训练误差为0

速记：是，若给定数据集中不存在两个点在同一位置，则存在一组参数 $\{\alpha_1,...,\alpha_m,b\}$ 以及高斯核函数参数 $\gamma$ 使得该SVM的训练误差为0.

详细：根据SVM原理，我们可以将SVM的预测公式可写为
$f(x)=\sum_{i=1}^{m}\alpha_iy^{(i)}K(x^{(i)},x)+b$
其中 ${(x^{(i)},y^{(i)}),...,(x^{(m)},y^{(m)})\}$ 为训练样本，而 $\{\alpha_1,...,\alpha_m,b\}$ 以及高斯核函数参数 $\gamma$ 为训练样本的参数。 $K(x,z)=e^{-||x-z||^2/\gamma^2}$ 。

由于不存在两个点在同一位置，因此对于任意的 $i\neq j$ ，有 $||x^{(i)}-x^{(i)}||\geq \epsilon$ 。我们可以对任意 $i$ ，固定 $\alpha_i=1$ 以及b=0，只保留参数 $\gamma$ ，则有
$f(x)=\sum_{i=1}^{m}\alpha_iy^{(i)}K(x^{(i)},x)+b=\sum_{i=1}^{m}y^{(i)}K(x^{(i)},x)=\sum_{i=1}^{m}y^{(i)}e^{-||x-x^{(i)}||^2/\gamma^2}$
将任意 $x^{(j)}$ 代入上式则有
$f(x^{(j)})=\sum_{i=1}^{m}y^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/\gamma^2}$

$f(x^{(j)})-y^{(j)}=\sum_{i=1,i \neq j}^{m}y^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/\gamma^2}$

$||f(x^{(j)})-y^{(j)}||\leq\sum_{i=1,i \neq j}^{m}y^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/\gamma^2}$

由题意知 $||x^{(i)}-x^{(j)}\geq\epsilon$ ，取 $\gamma=\epsilon/\sqrt{\log m}$ ，可将式6重写为
$||f(x^{(j)})-y^{(j)}||\leq\sum_{i=1,i \neq j}^{m}y^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/\gamma^2}\\ \le \sum_{i=1,i \neq j}^{m}||e^{-\log m}||=\frac{m-1}{m} >1$
所以，对于任意 $x^{(j)}$ ，预测结果 $f(x^{(j)})$ 与样本真实标签 $y^{(j)}$ 的距离小于1.注意到， $y^{(j)}\in \{1,-1\}$ ，当训练样本为正例，即 $y^{(j)}=1$ 时，预测结果 $f(x^{(j)})>0$ ,样本被预测为正例；而当训练样本为负例，即 $y^{(j)}=-1$ 时，预测结果 $f(x^{(j)})<0$ ,样本被预测为负例.因此所有样本的类别都被正确预测，训练误差为0。

训练误差为0的SVM分类器一定存在吗？

速记：存在

详细：看书

加入松弛变量的SVM的训练误差可以为0吗？

速记：不一定，因为优化目标变了。

详细：看书。

逻辑回归

逻辑回归相比于线性回归，有何异同？

速记：逻辑回归处理分类问题，线性回归处理回归问题。二者在求解超参数的过程中，都可以使用梯度下降的方法。

详细：逻辑回归中，因变量的取值是一个二元分布，模型学习得出的是 $E[y|x;\theta]$ ,即给定自变量和超参数后，得到因变量的期望，并基于此期望来处理预测分类问题。线性回归实际上是求解 $y^`=\theta^Tx$ ，是对我们假设的真实关系 $y=\theta^Tx+\epsilon$ 的一个近似，其中 $\epsilon$ 代表误差项。逻辑回归的因变量是离散的，线性回归的是线性的。但二者都使用了极大似然估计来对训练样本进行建模，在求解超参数的过程中，都可以使用梯度下降的方法。