机器学习

最新推荐文章于 2021-08-07 12:01:36 发布

爱吃香菜和葱

最新推荐文章于 2021-08-07 12:01:36 发布

阅读量137

点赞数

分类专栏：数据挖掘文章标签： SVM KNN

本文链接：https://blog.csdn.net/qq_41648804/article/details/102968596

版权

数据挖掘专栏收录该内容

6 篇文章 1 订阅

订阅专栏

感知器学习（Perceptrons）

感知器学习的一般形式：
$f(\mathbf{x})=\left\{\begin{array}{ll}{+1} & {\text { if } \mathbf{w}_{1} \mathbf{x}_{1}+\mathbf{w}_{2} \mathbf{x}_{2}+\ldots \mathbf{w}_{\mathrm{d}} \mathbf{x}_{\mathrm{d}} \geq \mathbf{\theta}} \\ {-\mathbf{1}} & {\text { otherwise }}\end{array}\right.$
输入： $x^i$ ， $y^i$ ，目标：找出一组权重 $w_1$ 、 $w_2$ 、…、 $w_d$ 使得该模型能将数据正确分类
spam
对于上述垃圾邮件分类的例子而言，若 $w * x > 0$ ，则说明其为正常邮件；若 $w * x < 0$ ，说明其为垃圾邮件。
权重更新的过程：
updata_weight
说明： $I^{\left(t\right)}$ 为权重 $w^{\left(t\right)}$ 的法线； $I^{\left(t+1\right)}$ 为权重 $w^{\left(t+1\right)}$ 的法线
如何理解更新公式为 $w^{(t+1)}=w^{(t)}+\eta \cdot y^{(t)} \cdot x^{(t)}$ ，上图的例子中， $y^{\left(t\right)}=1$ 但却被错误分类为 $y^{\left(t\right)}=0$ ，为了使得其被正确分类，则权重 $w^{\left(t\right)}$ 应该向 $x^{\left( t\right)}$ 的方向旋转，即 $w^{(t+1)}=w^{(t)}+\eta \cdot y^{(t)} \cdot x^{(t)}$ ，同理，对另一种情况分析也是合理的。
对于不能线性可分的情况，参数可能不能收敛，如何停止训练：

缓慢地降低学习速率，例如： $\eta=\mathfrak{c}_{1} /\left(\mathfrak{t}+\mathfrak{c}_{2}\right)$
当分类的错误率未发生改变时
某一部分数据用作测试集，当测试集的错误率停止下降时
当迭代次数达到某个固定值时

针对多分类问题，例如要分三类 $A$ 、 $B$ 、 $C$ 三类时，应该训练三个分类器 $A$ 与 $B C$ 、 $B$ 与 $A C$ 、 $C$ 与 $A B$ 三个分类器，使用时比较，三个分类器的值，若某一分类器的值大于其他两者，则认为其属于该类。
总结：

过拟合
当数据不能线性可分时，权重会出现摆动（dance around ）
分类器的分割方案不是最完美的（这一点会在之后的支持向量机中解决该问题）

Winnow算法

和之前提到的感知器学习算法类似，但在此处，权重全部为正值。
winnow
补充：如果 $x$ 被错误分类为正类，则应该减小 $w$ ；反之，若被错误分类为负类，则应该增加 $w$ 。
当特征 $x$ 出现负值时，可以引入新的向量 $x^{'}=-x$ ，并且组成size为 $2 d$ 的向量。例如 $x = [1, . 7, - . 4], w = [. 5, . 2, - . 3]$ ，新的 $x$ 和 $w$ 是 $x = [1, . 7, - . 4,$
$\mathbf{w}=[.5, .2,0,0,0, .3]$
延伸：引入软间隔的概念

算法的总结：

当数据线性不可分时，可以对数据进行一些简单的处理，例如下图中的数据，可以将直角坐标转换为球坐标。

Online Learning：处理的是流式数据，首先在训练数据集进行训练，实时处理某个数据时，当该数据被错误分类，则更新权重。

Instance Based Learning

常见的算法有最近邻、K近邻、Kernel Regression。前两种已经接触过很多，这里只介绍Kernel Resgression。
距离衡量的方式：欧式距离
邻居的数量：所有点
权重衡量及预测的方式： $\boldsymbol{w}_{\boldsymbol{i}}=\mathbf{e x p}\left(-\frac{\boldsymbol{d}\left(\boldsymbol{x}_{\boldsymbol{i}} \boldsymbol{q}\right)^{2}}{\boldsymbol{K}_{\boldsymbol{w}}}\right)$
$\frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}$
为了解决在高维空间搜索的复杂度较高这一问题，常用的其他方法有：线性扫描（Linear scan）、Kd-Tree、局部哈希敏感（Locality-Sensitive Hashing
）等

支持向量机（SVM）

原理

支持向量机的目标使得分类的间隔尽可能大，在下图中，右边的分类器的效果要明显好于左边的分类器。
SVM
如何计算间隔：
假设中间那条线的方程为 $w * x + b = 0$ ，则其上分界线为 $w * x + b = - 1$ ，则其下分界线为 $w * x + b = 1$ 。为何会存在这样的两条线 $w * x + b = + 1 / - 1$ ，假设中间那条线为 $a * x + y = 0$ ，上下分界线为 $a * x + y = + b / - b$ ，两边同时除以 $b$ ，不难得到 $a^{'}*x+b^{'}=+1/-1$ 。根据平行线间的距离距离公式，不难得到，其间隔为 $\frac{2}{||w||}$
$argmax\frac{2}{||w||}\Longrightarrow argmin\frac{1}{2}||w||^2$
且其约束条件为：
$y_{i}\left(w*x_i+b\right)\geq1$
但在实际情况中，如果严格按照上述的分类方法，可能会存在找不到这样的一个超平面。由于数据中会存在一些噪点，应该采取某些措施容忍这些噪点的存在。
在这里插入图片描述
对于上述公式做一些调整如下。
$\begin{array}{l}{\min _{w, b, \xi_{i} \geq 0} \frac{1}{2}\|w\|^{2}+C \cdot \sum_{i=1}^{n} \xi_{i}} \\ \\{y_{i}\left(w \cdot x_{i}+b\right) \geq 1-\xi_{i}}\end{array}$
$b)=\frac{1}{2} \sum_{j=1}^{d}\left(w^{(j)}\right)^{2}+C \sum_{i=1}^{n} \max \left\{0,1-y_{i}\left(\sum_{j=1}^{d} w^{(j)} x_{i}^{(j)}+b\right)\right\}$
参数求解可以采用SMO算法或者梯度下降（随机梯度下降）来求解。
若使用梯度下降法，则
$\nabla f^{(j)}=\frac{\partial f(w, b)}{\partial w^{(j)}}=w^{(j)}+C \sum_{i=1}^{n} \frac{\partial L\left(x_{i}, y_{i}\right)}{\partial w^{(j)}}$
$\begin{aligned} \frac{\partial L\left(x_{i}, y_{i}\right)}{\partial w^{(j)}} &=0 \quad \text { if } y_{i}\left(\mathrm{w} \cdot x_{i}+b\right) \geq 1 \\ &=-y_{i} x_{i}^{(j)} \quad \text { else } \end{aligned}$
如何将 $S V M$ 分类算法运用到多分类中，主要有以下两种方法（以A、B、C三类为例）：

训练三个分类器（ $A$ VS $B C$ ， $B$ VS $A C$ ， $C$ VS $A B$ ，在对某个样例进行分类时，某个分类器的值大（ $\arg \max _{c} \mathbf{w}_{c} \mathbf{x}+\mathbf{b}_{c}$ ， $c$ 为三个分类器中的某一个）就认为其是那一类

应用（Text categorization）

权重的更新：
$w_{t+1} \leftarrow w_{t}-\frac{\eta_{t}}{t+t_{0}}\left(w_{t}+C \frac{\partial L\left(x_{i}, y_{i}\right)}{\partial w}\right)$
会时刻改变学习速率 $\eta_{t}$ 及 $t_{0}$ 的值。
在这个例子中遇到的问题是数据过于稀疏，例如， $x_{i}=[0,0,0,1,0,0,0,0,5,0,0,0,0,0,0, \ldots]$ ，存储时，可以将该向量变换成 $x_{i}=[(4,1),(9,5), \dots]$ ，对于稀疏性数据，该如何使用 $S G D$ 方法来求解。
两个更新步骤：

$\leftarrow w-\eta C \frac{\partial L\left(x_{i}, y_{i}\right)}{\partial w}$ ，由于 $x_{i}$ 是稀疏的，则权重向量 $w$ 中将有很少的部分会被更新
$\leftarrow w(1-\eta)$

其他参考阅读：
学习SVM，这篇文章就够了！（附详细代码）
SVM实现多分类的三种方案
 支持向量机通俗导论（理解SVM的三层境界）

爱吃香菜和葱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习

感知器学习（Perceptrons）感知器学习的一般形式：f(x)={+1 if w1x1+w2x2+…wdxd≥θ−1 otherwise f(\mathbf{x})=\left\{\begin{array}{ll}{+1} & {\text { if } \mathbf{w}_{1} \mathbf{x}_{1}+\mathbf{w}_{2...
复制链接

扫一扫