（十二）支持向量机（Support Vecor Machine）1

最新推荐文章于 2020-01-06 12:40:12 发布

LintaoD

最新推荐文章于 2020-01-06 12:40:12 发布

阅读量314

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/LintaoD/article/details/81660363

版权

机器学习专栏收录该内容

23 篇文章 0 订阅

订阅专栏

支持向量机原理（一）

支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。
SVM是一个二元分类算法，线性分类和非线性分类都支持。经过演进，现在也可以支持多元分类，同时经过扩展，也能应用于回归问题。本系列文章就对SVM的原理做一个总结。本篇的重点是SVM用于线性分类时模型和损失函数优化的一个总结。

1. 回顾感知机模型

在感知机原理小结中，我们讲到了感知机的分类原理，感知机的模型就是尝试找到一条直线，能够把二元数据隔离开。放到三维空间或者更高维的空间，感知机的模型就是尝试找到一个超平面，能够把所有的二元类别隔离开。对于这个分离的超平面，我们定义为 $w^Tx + b = 0$ ，如下图。在超平面 $w^Tx + b = 0$ 上方的我们定义为 $y=1$ ,在超平面 $w^Tx + b = 0$ 下方的我们定义为 $y=-1$ 。可以看出满足这个条件的超平面并不止一个。那么我们可能会尝试思考，这么多的可以分类的超平面，哪个是最好的呢？或者说哪个是泛化能力最强的呢?

接着我们看感知机模型的损失函数优化，它的思想是让所有误分类的点(定义为M)到超平面的距离和最小，即最小化下式：

\sum x i \in M - y (i) (w T x (i) + b) / | | w | | 2

$\sum\limits_{x_i \in M}- y^{(i)}(w^Tx^{(i)} +b)\big / ||w||_2$
当

w w $w$ 和

b

$b$ 成比例的增加，比如,当分子的

w w $w$ 和

b

$b$ 扩大N倍时，分母的L2范数也会扩大N倍。也就是说，分子和分母有固定的倍数关系。那么我们可以固定分子或者分母为1，然后求另一个即分子自己或者分母的倒数的最小化作为损失函数，这样可以简化我们的损失函数。在感知机模型中，我们采用的是保留分子，固定分母

||w||2=1 | | w | | 2 = 1 $||w||_2 = 1$ ,即最终感知机模型的损失函数为：

\sum x i \in M - y (i) (w T x (i) + b)

$\sum\limits_{x_i \in M}- y^{(i)}(w^Tx^{(i)} +b)$
如果我们不是固定分母，改为固定分子，作为分类模型有没有改进呢?这些问题在我们引入SVM后会详细解释。

2. 函数间隔与几何间隔

在正式介绍SVM的模型和损失函数之前，我们还需要先了解下函数间隔和几何间隔的知识。在分离超平面固定为 $w^Tx + b = 0$ 的时候， $|w^Tx + b\ |$ 表示点x到超平面的距离。通过观察 $w^Tx + b $ 和y是否同号，我们判断分类是否正确，这些知识我们在感知机模型里都有讲到。这里我们引入函数间隔的概念，定义函数间隔 $\gamma^{'}$ 为：

γ' = y (w T x + b)

$\gamma^{'} = y(w^Tx + b)$
可以看到，它就是感知机模型里面的误分类点到超平面距离的分子。对于训练集中m个样本点对应的m个函数间隔的最小值，就是整个训练集的函数间隔。
函数间隔并不能正常反应点到超平面的距离，在感知机模型里我们也提到，当分子成比例的增长时，分母也是成倍增长。为了统一度量，我们需要对法向量

w w $w$ 加上约束条件，这样我们就得到了几何间隔 $\gamma$ ,定义为：
$γ = y ( w T x + b ) | | w | | 2 = γ ' | | w | | 2$ $\gamma = \frac{y(w^Tx + b)}{||w||_2} = \ \frac{\gamma^{'}}{||w||_2}$
几何间隔才是点到超平面的真正距离，感知机模型里用到的距离就是几何距离。

3. 支持向量

在感知机模型中，我们可以找到多个可以分类的超平面将数据分开，并且优化时希望所有的点都离超平面远。但是实际上离超平面很远的点已经被正确分类，我们让它离超平面更远并没有意义。反而我们最关心是那些离超平面很近的点，这些点很容易被误分类。如果我们可以让离超平面比较近的点尽可能的远离超平面，那么我们的分类效果会好有一些。SVM的思想起源正起于此。

如下图所示，分离超平面为 $w^Tx + b = 0$ ，如果所有的样本不光可以被超平面分开，还和超平面保持一定的函数距离（下图函数距离为1），那么这样的分类超平面是比感知机的分类超平面优的。可以证明，这样的超平面只有一个。和超平面平行的保持一定的函数距离的这两个超平面对应的向量，我们定义为支持向量，如下图虚线所示。

支持向量到超平面的距离为 $1/||w||_2$ ,两个支持向量之间的距离为 $2/||w||_2$ 。

4. SVM模型目标函数与优化

SVM的模型是让所有点到超平面的距离大于一定的距离，也就是所有的分类点要在各自类别的支持向量两边。用数学式子表示为：

$m a x γ = y ( w T x + b ) | | w | | 2 s . t y i (w T x i + b) / | | w | | \geq γ$ $max \;\; \gamma = \frac{y(w^Tx + b)}{||w||_2}\ \;\; s.t \;\; y_i(w^Tx_i + b)/|| w || \geq \gamma$
几何间隔 $\gamma \geq 0$ 结合几何间隔和函数间隔关系得：
$m a x γ = y ( w T x + b ) | | w | | 2 s . t y i (w T x i + b) \geq γ' (i = 1, 2, . . . m)$ $max \;\; \gamma = \frac{y(w^Tx + b)}{||w||_2}\ \;\; s.t \;\; y_i(w^Tx_i + b) \geq \gamma^{'} (i =1,2,...m)$
一般我们都取函数间隔 $\gamma^{'}$ 为1，这样我们的优化函数定义为：
$m a x 1 | | w | | 2 s . t y i (w T x i + b) \geq 1 (i = 1, 2, . . . m)$ $max \;\; \frac{1}{||w||_2}\ \;\; s.t \;\; y_i(w^Tx_i + b) \ \geq 1 (i =1,2,...m)$
也就是说，我们要在约束条件 $y_i(w^Tx_i + b) \ \geq 1 (i =1,2,...m)$ 下，最大化 $\frac{1}{||w||_2}$ 。可以看出，这个感知机的优化方式不同，感知机是固定分母优化分子，而SVM是固定分子优化分母，同时加上了支持向量的限制。
由于 $\frac{1}{||w||_2}$ 的最大化等同于 $\frac{1}{2}||w||_2^2$ 的最小化。这样SVM的优化函数等价于：
$m i n 1 2 | | w | | 22 s . t y i (w T x i + b) \geq 1 (i = 1, 2, . . . m)$ $min \;\; \frac{1}{2}||w||_2^2\ \;\; s.t \;\; y_i(w^Tx_i + b) \ \geq 1 (i =1,2,...m)$
由于目标函数 $\frac{1}{2}||w||_2^2$ 是凸函数，同时约束条件不等式是仿射的，根据凸优化理论，我们可以通过拉格朗日函数将我们的优化目标转化为无约束的优化函数，具体的，优化函数转化为：
$L (w, b, α) = 1 2 | | w | | 22 - \sum i = 1 m α i [y i (w T x i + b) - 1] 满足 α i \geq 0$ $L(w,b,\alpha) = \frac{1}{2}||w||_2^2 - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1] \; 满足\alpha_i \geq 0$
由于引入了朗格朗日乘子，我们的优化目标变成：
$m i n      w, b m a x      α i \geq 0 L (w, b, α)$ $\underbrace{min}_{w,b}\; \underbrace{max}_{\alpha_i \geq 0} L(w,b,\alpha)$
和最大熵模型一样的，我们的这个优化函数满足KKT条件，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解。
也就是说，现在我们要求的是：
$m a x      α i \geq 0 m i n      w, b L (w, b, α)$ $\underbrace{max}_{\alpha_i \geq 0} \;\underbrace{min}_{w,b}\;\ L(w,b,\alpha)$
从上式中，我们可以先求优化函数对于 $w和b$ 的极小值。接着再求拉格朗日乘子 $\alpha$ 的极大值。
首先我们来求 $w和b$ 的极小值，即 $\underbrace{min}_{w,b}\;\ L(w,b,\alpha)$ 。这个极值我们可以通过对 $w和b$ 分别求偏导数得到：
$\partial L \partial w = 0 \Rightarrow w = \sum i = 1 m α i y i x i$ $\frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i$
$\partial L \partial b = 0 \Rightarrow \sum i = 1 m α i y i = 0$ $\frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0$
从上两式子可以看出，我们已经求得了 $w和\alpha$ 的关系，只要我们后面接着能够求出优化函数极大化对应的 $\alpha$ ，就可以求出我们的 $w$ 了，至于b，由于上两式已经没有b，所以最后的b可以有多个。
好了，既然我们已经求出 $w和\alpha$ 的关系，就可以带入优化函数 $L(w,b,\alpha)$ 消去 $w$ 了。我们定义:
$ψ (α) = \underset{w, b}{\underset{⏟}{m i n}} L (w, b, α)$ $\psi(\alpha) = \underbrace{min}_{w,b}\;\ L(w,b,\alpha)$
现在我们来看将 $w$ 替换为 $\alpha$ 的表达式以后的优化函数 $\psi(\alpha)$ 的表达式：
$ψ (α) = 1 2 | | w | | 22 - \sum i = 1 m α i [y i (w T x i + b) - 1] = 1 2 w T w - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y i x i - w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = - 1 2 w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = - 1 2 w T \sum i = 1 m α i y i x i - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 (\sum i = 1 m α i y i x i) T (\sum i = 1 m α i y i x i) - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 \sum i = 1 m α i y i x T i \sum i = 1 m α i y i x i - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 \sum i = 1 m α i y i x T i \sum i = 1 m α i y i x i + \sum i = 1 m α i = - 1 2 \sum i = 1, j = 1 m α i y i x T i α j y j x j + \sum i = 1 m α i = \sum i = 1 m α i - 1 2 \sum i = 1, j = 1 m α i α j y i y j x T i x j (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11)$ $\begin{align}\psi(\alpha) & = \ \frac{1}{2}||w||_2^2 - \sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1] &\quad (1)\\ &\ = \frac{1}{2}w^Tw-\sum\limits_{i=1}^{m}\alpha_iy_iw^Tx_i - \sum\limits_{i=1}^{m}\alpha_iy_ib +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (2)\\ &\ = \frac{1}{2}w^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i -\sum\limits_{i=1}^{m}\alpha_iy_iw^Tx_i - \sum\limits_{i=1}^{m}\alpha_iy_ib +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (3)\\ &\ = \frac{1}{2}w^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i - w^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i - \sum\limits_{i=1}^{m}\alpha_iy_ib +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (4)\\ &\ = - \frac{1}{2}w^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i - \sum\limits_{i=1}^{m}\alpha_iy_ib +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (5)\\ &\ = - \frac{1}{2}w^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i - b\sum\limits_{i=1}^{m}\alpha_iy_i +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (6)\\ &\ = -\frac{1}{2}(\sum\limits_{i=1}^{m}\alpha_iy_ix_i)^T(\sum\limits_{i=1}^{m}\alpha_iy_ix_i) - b\sum\limits_{i=1}^{m}\alpha_iy_i +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (7)\\ &\ = -\frac{1}{2}\sum\limits_{i=1}^{m}\alpha_iy_ix_i^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i - b\sum\limits_{i=1}^{m}\alpha_iy_i +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (8)\\ &\ = -\frac{1}{2}\sum\limits_{i=1}^{m}\alpha_iy_ix_i^T\sum\limits_{i=1}^{m}\alpha_iy_ix_i +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (9)\\ &\ = -\frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_iy_ix_i^T\alpha_jy_jx_j +\ \sum\limits_{i=1}^{m}\alpha_i &\quad (10)\\ &\ = \sum\limits_{i=1}^{m}\alpha_i \ - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j &\quad (11) \end{align}$
其中，(1)式到(2)式用到了范数的定义 $||w||_2^2 =w^Tw$ , (2)式到(3)式用到了上面的 $w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i$ ， (3)式到(4)式把和样本无关的 $w^T$ 提前，(4)式到(5)式合并了同类项，(5)式到(6)式把和样本无关的 $b$ 提前，(6)式到(7)式继续用到 $w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i$ ，（7）式到(8)式用到了向量的转置。由于常量的转置是其本身，所有只有向量 $x_i$ 被转置，（8）式到(9)式用到了上面的 $\sum\limits_{i=1}^{m}\alpha_iy_i = 0$ ，（9）式到(10)式使用了 $(a+b+c+…)(a+b+c+…)=aa+ab+ac+ba+bb+bc+…$ 的乘法运算法则，（10）式到(11)式仅仅是位置的调整。
从上面可以看出，通过对 $w,b$ 极小化以后，我们的优化函数 $\psi(\alpha)$ 仅仅只有 $\alpha$ 向量做参数。只要我们能够极大化 $\psi(\alpha)$ ，就可以求出此时对应的 $\alpha$ ，进而求出 $w,b$ .

对 $\psi(\alpha)$ 求极大化的数学表达式如下:

$m a x      α - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j (x i ∙ x j) + \sum i = 1 m α i$ $\underbrace{max}_{\alpha} -\frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) + \sum\limits_{i=1}^{m} \alpha_i$
$s . t . \sum i = 1 m α i y i = 0$ $s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0$
$α i \geq 0 i = 1, 2, . . . m$ $\alpha_i \geq 0\ \; i=1,2,...m$
可以去掉负号，即为等价的极小化问题如下：
$m i n      α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j (x i ∙ x j) - \sum i = 1 m α i$ $\underbrace{min}_{\alpha} \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \ \sum\limits_{i=1}^{m} \alpha_i$
$s . t . \sum i = 1 m α i y i = 0$ $s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0$
$α i \geq 0 i = 1, 2, . . . m$ $\alpha_i \geq 0\ \; i=1,2,...m$
只要我们可以求出上式极小化时对应的 $\alpha$ 向量就可以求出 $w和b$ 了。具体怎么极小化上式得到对应的 $\alpha$ ，一般需要用到SMO算法，这个算法比较复杂，我们后面会专门来讲。在这里，我们假设通过SMO算法，我们得到了对应的 $\alpha$ 的值 $\alpha^{*}$ 。

那么我们根据 $w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i$ ，可以求出对应的 $w$ 的值

$w^{*} = \sum_{i = 1}^{m} α_{i}^{*} y_{i} x_{i}$ $w^{*} = \sum\limits_{i=1}^{m}\alpha_i^{*}y_ix_i$
求 $b$ 则稍微麻烦一点。注意到，对于任意支持向量 $(x_x, y_s)$ ，都有：

$y s (w T x s + b) = y s (\sum i = 1 m α i y i x T i x s + b) = 1$ $y_s(w^Tx_s+b) = y_s(\sum\limits_{i=1}^{m}\alpha_iy_ix_i^Tx_s+b) = 1$

假设我们有S个支持向量，则对应我们求出S个 $b^{*}$ ,理论上这些 $b^{*}$ 都可以作为最终的结果，但是我们一般采用一种更健壮的办法，即求出所有支持向量所对应的 $b_s^{*}$ ，然后将其平均值作为最后的结果。注意到对于严格线性可分的SVM， $b$ 的值是有唯一解的，也就是这里求出的所有 $b^{*}$ 都是一样的，这里我们仍然这么写是为了和后面加入软间隔后的SVM的算法描述一致。

怎么得到支持向量呢？根据KKT条件中的对偶互补条件 $\alpha_{i}^{*}(y_i(w^Tx_i + b) - 1) = 0$ ，如果 $\alpha_i\ >\ 0$ 则有 $y_i(w^Tx_i + b) =1$ 即点在支持向量上，否则如果 $\alpha_i=0$ 则有 $y_i(w^Tx_i + b) \geq 1$ ，即样本在支持向量上或者已经被正确分类。

5. 线性可分SVM的算法过程

这里我们对线性可分SVM的算法过程做一个总结。输入是线性可分的m个样本 ${(x_1,y_1), (x_2,y_2), ..., (x_m,y_m),}$ ,其中x为n维特征向量。y为二元输出，值为1，或者-1.输出是分离超平面的参数 $w^{*}和b^{*}$ 和分类决策函数。

算法过程如下：
1. 构造约束优化问题

$m i n      α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j (x i ∙ x j) - \sum i = 1 m α i$ $\underbrace{min}_{\alpha} \ \ \ \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \ \sum\limits_{i=1}^{m} \alpha_i$

$s . t . \sum i = 1 m α i y i = 0$ $s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0$

$α i \geq 0 i = 1, 2, . . . m$ $\alpha_i \geq 0\ \; i=1,2,...m$

用SMO算法求出上式最小时对应的 $\alpha$ 向量的值 $\alpha^{*}$ 向量。
计算 $w^{*} = \sum\limits_{i=1}^{m}\alpha_i^{*}y_ix_i$
找出所有的S个支持向量,即满足 $\alpha_s \ >\ 0$ 对应的样本 $(x_s,y_s)$ ，通过 $y_s(\sum\limits_{i=1}^{m}\alpha_iy_ix_i^Tx_s+b) = 1$ ，计算出每个支持向量 $(x_x, y_s)$ 对应的 $b_s^{*}$ ,计算出这些 $b_s^{*} = y_s - \sum\limits_{i=1}^{m}\alpha_iy_ix_i^Tx_s$ . 所有的 $b_s^{*}$ 对应的平均值即为最终的 $b^{*} = \frac{1}{S}\sum\limits_{i=1}^{S}b_s^{*}$

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

LintaoD

关注关注

0
点赞

踩

1

收藏

觉得还不错? 一键收藏

0
评论

（十二）支持向量机（Support Vecor Machine）1

支持向量机原理（一）支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。 SVM是一个二元分类算法，线性分类和非线性分类都支持。经过演进，现在...
复制链接

扫一扫

专栏目录

SVM支持向量机原理(一) 线性支持向量机

sun_shengyun的专栏

02-18 3805

此篇文章并非完全原创，参考了下篇博客，如果大家觉得稳重的1、2、3部分不好理解，可以看下图中我的手写版。 http://www.cnblogs.com/pinard/p/6097604.html 支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如

Support_Vecor_Machine_Implementation:借助梯度下降算法实现svm实现，以减少错误函数，仅使用numpy和matplotlib来实现

05-12

支持向量机（SVM，Support Vector Machine）是一种广泛应用的监督学习模型，尤其在分类和回归问题中表现出色。在本项目中，我们将探讨如何利用Python编程语言中的numpy库和matplotlib库来实现一个简单的SVM模型，...

参与评论您还未登录，请先登录后发表或查看评论

机器学习（7）之支持向量机（SVM）

u013788252的博客

01-06 593

文章目录1 知识回顾1.1 梯度下降法1.2 拉格朗日乘子法1.2.1 对偶问题1.3 KKT条件1.3.1 KKT条件总结1.4 最优化问题的求解1.5 距离知识回顾1.6 感知器模型2 SVM2.1 线性可分SVM2.1.1 算法流程2.1.1 算法总结2.2 SVM的软间隔模型2.2.1 算法流程2.2.1 算法总结 1 知识回顾 1.1 梯度下降法导数：一个函数在某一点的导数描述了这个函...

SVM算法

weixin_33712881的博客

06-04 497

支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类性能席卷了机器学习领域，并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法，不考虑特定的训练数据集，在分类算法中的表现SVM说是排第一估计是没有什么异议的。SVM是一个二元分类算法，线性分类和非线性分类都支持。经过演进，...

05 SVM - 支持向量机 - 概念、线性可分

weixin_33743880的博客

12-05 172

04 SVM - 感知器模型一、SVM概念 支持向量机(Support Vector Machine, SVM)本身是一个__二元分类算法__，是对感知器算法模型的一种扩展，现在的SVM算法支持__线性分类__和__非线性分类__的分类应用，并且也能够直接将SVM应用于__回归应用__中，同时通过OvR或者OvO的方式我们也可以将SVM应用在__多元分...

支持向量机原理(一) 线性支持向量机

weixin_30362801的博客

10-01 122

支持向量机原理(一) 线性支持向量机 　　　　支持向量机原理(二) 线性支持向量机的软间隔最大化模型　　　　支持向量机原理(三)线性不可分支持向量机与核函数　　　　支持向量机原理(四)SMO算法原理　　　　支持向量机原理(五)线性支持回归　　　　支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年，但是自一诞生便由于它良好的分类...

（十二）支持向量机（Support Vecor Machine）2

LintaoD的博客

08-14 175

支持向量机（二）在支持向量机原理(一) 线性支持向量机中，我们对线性可分SVM的模型和损失函数优化做了总结。最后我们提到了有时候不能线性可分的原因是线性数据集里面多了少量的异常点，由于这些异常点导致了数据集不能线性可分，本篇就对线性支持向量机如何处理这些异常点的原理方法做一个总结。 1. 线性分类SVM面临的问题有时候本来数据的确是可分的，也就是说可以用线性分类SVM的...

（十二）支持向量机（Support Vecor Machine）3

LintaoD的博客

08-14 256

支持向量机原理（三）在前面两篇我们讲到了线性可分SVM的硬间隔最大化和软间隔最大化的算法，它们对线性可分的数据有很好的处理，但是对完全线性不可分的数据没有办法。本文我们就来探讨SVM如何处理线性不可分的数据，重点讲述核函数在SVM中处理线性不可分数据的作用。 1. 回顾多项式回归在线性回归原理小结中，我们讲到了如何将多项式回归转化为线性回归。比如一个只有两个特征的p次方多...

（十二）支持向量机（Support Vecor Machine）5

LintaoD的博客

08-14 287

支持向量机原理（五）在前四篇里面我们讲到了SVM的线性分类和非线性分类，以及在分类时用到的算法。这些都关注与SVM的分类问题。实际上SVM也可以用于回归模型，本篇就对如何将SVM用于回归模型做一个总结。重点关注SVM分类和SVM回归的相同点与不同点。 1. SVM回归模型的损失函数度量回顾下我们前面SVM分类模型中，我们的目标函数是让12||w||2212||w||22\...

（十二）支持向量机（Support Vecor Machine）4

LintaoD的博客

08-14 210

支持向量机原理（四）在SVM的前三篇里，我们优化的目标函数最终都是一个关于αα\alpha向量的函数。而怎么极小化这个函数，求出对应的αα\alpha向量，进而求出分离超平面我们没有讲。本篇就对优化这个关于αα\alpha向量的函数的SMO算法做一个总结。 1. 回顾SVM优化目标函数我们首先回顾下我们的优化目标函数： minα 12∑i=1,j=...

Google Word2Vector技术实现分享

09-10

介绍Google Word2Vecor技术实现，并延伸出其他相关的技术点，包括逻辑回归、霍夫曼编码等，适合作为公司内部知识分享ppt

基于动态集成的遥感图像分类 (2011年)

05-20

鉴于多分类器集成能够获得比单个分类器更好的性能，但是对于支持向量机（support vecor machine, SVM），一般的集成方法很难达到效果。特提出了基于局部精度（local accumcy, LA）的动态集成算法,首先，通过多种方法...

C++ STL VECTOR的实现

06-25

c++的STL的vector的一个实现。使用了c++11的大部分特性，包含vector的几乎所有功能。仅作学习之用。

GenY工具生成驱动程序.rar_CAN_GENy_geny.com_vector_协议栈

07-14

它支持多种操作系统，包括Windows、Linux和RTOS（实时操作系统），并能生成多种编程语言的代码，如C、C++、C#等。 2. **协议栈生成** 协议栈是实现CAN通信的核心组件，负责处理CAN报文的发送和接收，以及错误检测...

（一）拉格朗日对偶问题（Lagrange duality）

LintaoD的博客

08-09 1595

拉格朗日对偶问题（Lagrange duality）在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转化为对偶问题，通过解对偶问题而得到原始问题的解。该方法应用在许多统计学习方法中，例如，最大熵模型与支持向量机。这里简要叙述拉格朗日对偶性的主要概念和结果。 1. 原始问题假设f(x),ci(x),hj(x)f(x),ci(x),hj...

（十八）K-Means聚类算法

LintaoD的博客

08-16 952

K-Means聚类算法原理 K-Means算法是无监督的聚类算法，它实现起来比较简单，聚类效果也不错，因此应用很广泛。K-Means算法有大量的变体，本文就从最传统的K-Means算法讲起，在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。 1. K-...

（八）决策树（CART）

LintaoD的博客

08-13 805

决策树（CART）在决策树（ID3、C4.5）里，我们讲到了决策树里ID3算法，和ID3算法的改进版C4.5算法。对于C4.5算法，我们也提到了它的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CART算法大部分做了改进。CART算法也就是我们下面的重点了。由于CART算法可以做回归，也可以做分类，我们分别加以介绍，先从CA...

（四）交叉验证(Cross Validation)

LintaoD的博客

08-13 698

交叉验证交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证，顾名思义，就是重复的使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集来训练模型，用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。　那么什么时候才需要交叉验证呢？交叉验证用在数据不是很充足的时...

lstm评论情感分析

最新发布

12-05

基于深度学习的LSTM情感分析是一种常用的文本情感分析方法。LSTM（Long Short-Term Memory）是一种特殊的循环神经网络，它能够有效地处理序列数据，因此在文本处理中得到了广泛应用。下面是一个简单的LSTM情感分析模型的实现示例： ```python import numpy as np from keras.datasets import imdb from keras.models import Sequential from keras.layers import Dense, LSTM, Embedding from keras.preprocessing import sequence # 加载IMDB数据集 top_words = 5000 (X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=top_words) # 对数据进行预处理 max_review_length = 500 X_train = sequence.pad_sequences(X_train, maxlen=max_review_length) X_test = sequence.pad_sequences(X_test, maxlen=max_review_length) # 构建LSTM模型 embedding_vecor_length = 32 model = Sequential() model.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length)) model.add(LSTM(100)) model.add(Dense(1, activation='sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) print(model.summary()) # 训练模型 model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=3, batch_size=64) # 评估模型 scores = model.evaluate(X_test, y_test, verbose=0) print("Accuracy: %.2f%%" % (scores[1]*100)) ``` 在上面的代码中，我们使用Keras框架构建了一个简单的LSTM模型，用于对IMDB电影评论进行情感分析。首先，我们加载了IMDB数据集，并对数据进行了预处理。然后，我们构建了一个包含一个嵌入层、一个LSTM层和一个全连接层的模型，并使用二元交叉熵作为损失函数，Adam优化器进行优化。最后，我们训练了模型，并评估了模型的准确率。 --相关问题--: 1. LSTM模型的优点是什么？ 2. 除了LSTM，还