Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】

最新推荐文章于 2019-07-24 21:19:56 发布

痞靥

最新推荐文章于 2019-07-24 21:19:56 发布

阅读量305

点赞数

分类专栏：机器学习文章标签：支持向量机

本文链接：https://blog.csdn.net/u012347642/article/details/80728865

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

逻辑回归的代价函数如下：
$J(\theta)=\min\limits_{\theta}{1\over m}[\sum\limits_{i=1}^my^{(i)}(-log(h_\theta(x^{(i)})))+(1-y^{(i)})(-log(1-h_\theta(x^{(i)})))]+\frac{\lambda}{2m}\sum\limits_{j=1}^n\theta^2_j$

对于支持向量机来说：
将 $-log(h_\theta(x^{(i)}))$ 替换为 $cost_1(\theta^Tx^{(i)})$ ，如下图：
这里写图片描述
将 $-log(1-h_\theta(x^{(i)}))$ 替换为 $cost_0(\theta^Tx^{(i)})$ ，如下图：

去掉 $1\over m$ 常量以及正则项的 $\lambda$ 参数，转而在第一项前加上 $C$ 系数，则得到支持向量机的代价函数：
$J(\theta)=\min\limits_{\theta}C[\sum\limits_{i=1}^my^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})]+\frac{1}{2}\sum\limits_{j=1}^n\theta^2_j$

假设函数：

h θ (x) = {1, 0, i f θ T x ⩾ 0 o t h e r w i s e

$h_\theta(x)=\begin{cases} 1, & if\ \theta^Tx\geqslant0\\ 0, & otherwise \end{cases}$
不同于逻辑回归输出概率，支持向量机的假设函数直接预测

y y $y$ 的取值。

根据 $cost_1(\theta^Tx^{(i)})$ 及 $cost_0(\theta^Tx^{(i)})$ 的坐标图，为了最小化支持向量机(SVM)的代价函数，需满足以下条件：

{i f y = 1, i f y = 0, t h e n w e w a n t θ T x ⩾ 1 t h e n w e w a n t θ T x ⩽ - 1

$\begin{cases} if\ y=1, & then\ we\ want\ \theta^Tx\geqslant1\\ if\ y=0, & then\ we\ want\ \theta^Tx\leqslant-1 \end{cases}$
支持向量机不仅正确地区分输入的正负样本，还加入了一个安全的间距因子，因此具有鲁棒性，也称其为大间距分类器。

在支持向量机的代价函数中：

$C$ 值如果设置很大，支持向量机易受到异常点的影响；
$C$ 值如果设置很小，支持向量机会忽略异常点的影响。

设存在两个二维向量：

u = [u 1 u 2] v = [v 1 v 2]

$u=\left[ \begin{array}{c} u_1\\ u_2 \end{array} \right]\qquad v=\left[ \begin{array}{c} v_1\\ v_2 \end{array} \right]$

则向量的内积： $u\cdot v=u^T\ast v=p\ast\lVert u\rVert=u_1\ast v_1+u_2\ast v_2$
$p$ 是向量 $v$ 投射到 $u$ 上的长度， $\lVert u\rVert$ 是向量 $u$ 的长度 $=\sqrt{u_1^{2}+u_2^{2}}$
$p$ 是带符号的，若 $u$ 与 $v$ 在坐标系内的夹角为 $\theta(0\leqslant \theta \leqslant\pi)$ ，则 $u\cdot v=\lVert u\rVert \ast\lVert v\rVert\ast cos\theta$

当支持向量机的代价函数中， $C$ 取值较大时，为了最小化代价函数，我们会找到令 $\sum\limits_{i=1}^my^{(i)}cost_1(\theta^Tx^{(i)})+(1-y^{(i)})cost_0(\theta^Tx^{(i)})$ 为 $0$ 的最优解，则目标函数变为

min_{θ} \frac{1}{2} \sum_{j = 1}^{n} θ_{j}^{2} {\begin{cases} θ^{T} x^{(i)} ⩾ 1 & i f y = 1 \\ θ^{T} x^{(i)} ⩽ - 1 & i f y = 0 \end{cases}

$\min\limits_{\theta}\frac{1}{2}\sum\limits_{j=1}^n\theta^2_j\qquad \begin{cases} \theta^Tx^{(i)}\geqslant1 &if\ y=1\\ \theta^Tx^{(i)}\leqslant-1 & if\ y=0 \end{cases}$

进行如下简化：特征数 $n$ 设为2，令 $\theta_0=0$
目标函数可写作： $\frac{1}{2}(\theta_1^2+\theta_2^2)=\frac{1}{2}(\sqrt{\theta_1^{2}+\theta_2^{2}})^2=\frac{1}{2}\lVert \theta\rVert^2$
$\theta^Tx^{(i)}=p^{(i)}\cdot\lVert \theta\rVert=\theta_1x_1^{(i)}+\theta_2x_2^{(i)}$
则条件变为：

{p (i) \cdot ∥ θ ∥ ⩾ 1 p (i) \cdot ∥ θ ∥ ⩽ - 1 i f y (i) = 1 i f y (i) = 0

$\begin{cases} p^{(i)}\cdot\lVert \theta\rVert\geqslant1 &if\ y^{(i)}=1\\ p^{(i)}\cdot\lVert \theta\rVert\leqslant-1 & if\ y^{(i)}=0 \end{cases}$

$p^{(i)}$ 为 $x^{(i)}$ 投射到 $\theta$ 的长度， $\theta$ 向量与分界线垂直。
由于目标函数是令 $\frac{1}{2}\lVert \theta\rVert^2$ 尽可能小，同时要满足条件

{p (i) \cdot ∥ θ ∥ ⩾ 1 p (i) \cdot ∥ θ ∥ ⩽ - 1 i f y (i) = 1 i f y (i) = 0

$\begin{cases} p^{(i)}\cdot\lVert \theta\rVert\geqslant1 &if\ y^{(i)}=1\\ p^{(i)}\cdot\lVert \theta\rVert\leqslant-1 & if\ y^{(i)}=0 \end{cases}$

所以 $p^{(i)}$ 应尽可能大。
这就是支持向量机(SVM)能有效产生大间距分类的原因。

$Kernel$ (核函数)：
这里写图片描述
如上图所述，如果想拟合一条非线性的判别边界来区分正负样本，有两种方法：

方法1：
构造多项式特征变量，如果 $\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x_1^2+\theta_5x_2^2+\cdots\gt0$ ，则预测 $y=1$ 。

方法2：
只定义三个特征变量 $x_0,x_1,x_2$ ，其中 $x_0=1$ ，可忽略，如下图所示，用 $x_1,x_2$ 作为坐标轴，手动选取三个点作为 $l^{(1)},l^{(2)},l^{(3)}$ ：
这里写图片描述
给出样本 $x$ ，新的特征变量定义如下：

f_{1} = s i m i l a r i t y (x, l^{(1)}) = e x p (- \frac{‖ x - l^{(1)} ‖^{2}}{2 σ^{2}}) f_{2} = s i m i l a r i t y (x, l^{(2)}) = e x p (- \frac{‖ x - l^{(2)} ‖^{2}}{2 σ^{2}}) f_{3} = s i m i l a r i t y (x, l^{(3)}) = e x p (- \frac{‖ x - l^{(3)} ‖^{2}}{2 σ^{2}})

$f_1=similarity(x,l^{(1)})=exp(-\frac{\lVert x-l^{(1)}\rVert^2}{2\sigma^2})\\f_2=similarity(x,l^{(2)})=exp(-\frac{\lVert x-l^{(2)}\rVert^2}{2\sigma^2})\\f_3=similarity(x,l^{(3)})=exp(-\frac{\lVert x-l^{(3)}\rVert^2}{2\sigma^2})$

$similarity$ 函数即为 $Kernel$ 函数，此处为高斯核函数，可用 $k(x,l^{(i)})$ 表示。
以 $f_1$ 为例：
$f_1=similarity(x,l^{(1)})=exp(-\frac{\lVert x-l^{(1)}\rVert^2}{2\sigma^2})=exp(-\frac{\sum\limits_{j=1}^n(x_j-l_j^{(1)})^2}{2\sigma^2})$ ，忽略 $x_0$
如果 $x\approx l^{(1)}$ (即 $x$ 离 $l^{(1)}$ 很近)： $f_1\approx exp(-\frac{0^2}{2\sigma^2})\approx1$
如果 $x$ 离 $l^{(1)}$ 很远： $f_1\approx exp(-\frac{(large\ Number)^2}{2\sigma^2})\approx0$
之前画的每一个点对应一个新的特征变量。

本例中，假设函数为：当 $\theta_0+\theta_1f_1+\theta_2f_2+\theta_3f_3\geqslant0$ 时，预测 $y=1$
假设已得到 $\theta_0=-0.5,\theta_1=1,\theta_2=1,\theta_3=0$ ，可以发现，样本离 $l^{(1)}$ 或 $l^{(2)}$ 很近时，即 $f_1=0$ 或 $f_2=0$ 时， $y=1$

如何选择 $l^{(1)},l^{(2)},l^{(3)}\cdots$ ？
设给定 $m$ 个训练样本 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(m)},y^{(m)})$
选择 $l^{(1)}=x^{(1)},l^{(2)}=x^{(2)},\cdots,l^{(m)}=x^{(m)}$
$f_1=similarity(x,l^{(1)})\\f_2=similarity(x,l^{(2)})\\ \cdots$
则特征向量 $f=\left[ \begin{matrix} f_1\\ f_2\\ \cdots\\ f_m \end{matrix} \right]$ ，可添加 $f_0=1$
对于支持向量机：给定样本集 $x$ ，计算特征向量 $f\in R^{m+1}$
如果 $\theta^Tf\geqslant0$ ，预测 $y=1$

如何得到 $\theta$ ？
$\min\limits_{\theta}C[\sum\limits_{i=1}^my^{(i)}cost_1(\theta^Tf^{(i)})+(1-y^{(i)})cost_0(\theta^Tf^{(i)})]+\frac{1}{2}\sum\limits_{j=1}^n\theta^2_j$
此处 $n=m$
$\sum\limits_{j=1}^n\theta^2_j$ 也可写作 $\theta^T\theta$ (忽略 $\theta_0$ )，为了提升计算效率，改写成 $\theta^Tm\theta$ ， $m$ 为样本数。
不建议自己写最小化代价函数的代码，应使用成熟软件包。

高斯核函数中 $\sigma$ 参数的影响：
例： $l^{(1)}=\left[ \begin{matrix} 3\\ 5 \end{matrix} \right]$ ， $f_1=exp(-\frac{\lVert x-l^{(1)}\rVert^2}{2\sigma^2})$
当 $\sigma^2=1$ 时：
这里写图片描述
$x=\left[ \begin{matrix} 3\\ 5 \end{matrix} \right]$ 时，为最高点 $f_1=1$ ， $x$ 取值离该点越远， $f_1$ 越趋近于 $0$ 。

当 $\sigma^2=0.5$ 时：
这里写图片描述
随着 $x$ 取值远离 $l^{(1)}$ ， $f_1$ 取值的下降趋势加快。

当 $\sigma^2=3$ 时：
这里写图片描述
随着 $x$ 取值远离 $l^{(1)}$ ， $f_1$ 取值的下降趋势减缓。

使用支持向量机时，参数 $C$ 的影响：

取值较大，低偏差，高方差。(对应 λ 取值小)
- $C$ 取值较小，高偏差，低方差。(对应 $\lambda$ 取值大)
- 使用支持向量机时，参数 $\sigma^2$ 的影响：
  - $\sigma^2$ 取值较大，特征向量 $f_i$ 越平滑，高偏差，低方差
  - $\sigma^2$ 取值较小，特征向量 $f_i$ 越陡峭，低偏差，高方差
  使用SVM软件包求解参数 $\theta$ (如： $liblinear,libsvm$ )：
  步骤一：选择参数 $C$
  步骤二：选择核函数：
  1. 选择 $No\ kernel$ (也叫线性核函数)
    如果 $\theta^Tx\geqslant0$ ，预测 $y=1$
    当存在 $n$ 个特征值， $m$ 个样本， $n$ 很大， $m$ 很小，此时，适合使用线性核函数。
  2. 高斯核函数， $f_i=exp(-\frac{\lVert x-l^{(i)}\rVert^2}{2\sigma^2}),l^{(i)}=x^{(i)}$
    需选择参数 $\sigma^2$
    当存在 $n$ 个特征值， $m$ 个样本， $n$ 很小， $m$ 很大时，适合用高斯核函数。
    如果选择高斯核函数，需要实现一个核函数：
    $function\quad f=kernel(x_1,x_2)$
    $\qquad f=exp(-\frac{\lVert x_1-x_2\rVert^2}{2\sigma^2})$
    $return$
    其中， $f$ 代表 $f^{(i)}$ ， $x_1$ 代表 $x^{(i)}$ ， $x_2$ 代表 $l^{(j)}=x^{(j)}$
    在使用高斯函数前，需要做特征归一化，避免单一特征值对 $f$ 的影响过大。
    注意：不是所有的相似度函数 $similarity(x,l)$ 都是有效的核函数，需要满足默塞尔定理，确保软件包可以使用大量优化方法并快速得到参数 $\theta$ 。
    可能会遇到的其他核函数：
    1)多项式核函数： $k(x,l)=(x^Tl+constant)^{degree}$ ，当 $x,l$ 都是严格非负数时使用；
    2)字符串核函数：当输入为文本或其他类型字符串时使用；
    3)卡方核函数；
    4)直方图交叉核函数。
  3. 如果有 $k$ 个类别的话，一般使用内置函数，否则，训练 $k$ 个SVM，每个SVM将 $1$ 类与其他类区分开。
    
    逻辑回归与SVM对比：
    $n$ 为特征值数量， $m$ 为训练样本数
    - 如果相对于 $m$ ， $n$ 很大(如 $n=10000,m=10\sim1000$ )
      使用逻辑回归，或SVM使用线性核函数；
    - 如果 $n$ 很小， $m$ 中等大小(如 $n=1\sim1000,m=10\sim10000$ )
      选择SVM使用高斯核函数；
    - 如果 $n$ 很小， $m$ 很大(如 $n=1\sim1000,m=50000+$ )
      增加更多特征值，使用逻辑回归或SVM不带核函数。
    - 对于所有情况，一个设计的很好的神经网络可能会非常有效，但训练起来很慢。
      
      SVM优化函数是凸函数，总能找到全局最小值，或接近它的值。

痞靥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Coursea-吴恩达-machine learning学习笔记（十二）【week 7之Support Vector Machines】

逻辑回归的代价函数如下： J(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθ2jJ(θ)=minθ1m[∑i=1my(i)(−log(hθ(x(i))))+(1−y(i))(−log(1−hθ(x(i))))]+λ2m∑j=1nθj2J(\theta)=\min\limits_{\theta}{1...
复制链接

扫一扫

专栏目录