机器学习 —— 基础整理（六）线性判别函数：感知器、松弛算法、Ho-Kashyap算法...

最新推荐文章于 2024-04-15 16:34:18 发布

weixin_34232363

最新推荐文章于 2024-04-15 16:34:18 发布

阅读量672

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/Determined22/p/6507329.html

版权

这篇总结继续复习分类问题。本文简单整理了以下内容：

（一）线性判别函数与广义线性判别函数

（二）感知器

（三）松弛算法

（四）Ho-Kashyap算法

闲话：本篇是本系列［机器学习基础整理］在timeline上最新的，但实际上还有（七）、（八）都发布的比这个早，因为这个系列的博客是之前早就写好的，不过会抽空在后台修改，感觉自己看不出错误（当然因为水平有限肯定还是会有些错误）了之后再发出来。后面还有SVM、聚类、tree-based和boosting，但现在的情况是前八篇结束后，本系列无限期停更……

（一）线性判别函数与广义线性判别函数

一、线性判别函数

现假设判别函数（Discriminant function）的参数形式已知，用训练的方法直接根据样本估计判别函数的参数。例如，线性判别函数的形式为：

$$g(\textbf x)=\textbf w^{\top}\textbf x+w_0$$

$\textbf x\in \mathbb R^d$ 是给定的样本，$\textbf w=(w_1,w_2,\cdots,w_d)$ 是权重向量，$w_0$ 是偏置。对于多类分类问题，如果有 $c$ 个类，那么有 $c$ 个判别函数，将样本的类别判定为各判别函数取值最大的一个（实际上这是一种one-vs-all的方式，因为一个判别函数只可以解决二类的分类问题。下面会简单介绍）。

二分类问题的线性判别函数

如果是二分类问题，则可以只有一个判别函数，当 $g(\textbf x)>0$ 时判为正类，$g(\textbf x)<0$ 时判为负类，$g(\textbf x)=0$ 时任意。因此，$g(\textbf x)=0$ 就是决策面，对于线性判别函数来说，这是一个超平面（hyperplane，直线的高维推广）。对于一组来源于两类的样本来说，如果存在一个超平面可以将它们完全正确地分开，则称它们是线性可分的。

就这个描述来说，之前总结过的二项Logistic回归模型（如果只考虑线性决策面）和这里的描述是一致的，本质上都是需要学习出 $\textbf w$ 、$w_0$ ，二项Logistic回归模型还更进一步，将判别函数的值通过logistic函数 $\sigma(\cdot)$ 映射到了 $(0,1)$ 区间，进而给出了样本属于正类的概率。

根据几何关系，对于任一样本 $\textbf x$ 来说，设它到决策面的投影点为 $\textbf x_p$ ，到决策面的距离为 $r$ （有正负，如果大于零则表示样本属于正类，处在决策面的正侧），那么如下关系成立：

$$\textbf x=\textbf x_p+r\frac{\textbf w}{||\textbf w||}$$

由于 $g(\textbf x_p)=0$ ，所以可得到 $r=g(\textbf x)/||\textbf w||$ 。如果决策面过原点，就表明 $w_0=0$ （原点到决策面的距离为 $w_0/||\textbf w||$ ），这时称判别函数是齐次（homogeneous）的。

图片来源：[1]

one-vs-rest

这里多提一句，如果是二分类器想用于多分类问题（ $c$ 类），一般采用的策略是 one-vs-all（one-vs-rest），就是说训练 $c$ 个二分类器，其中分类器 $i$ 给出样本属于 $i$ 类的后验概率（ $i=1,2,\cdots, c$ ），从而将样本的类别判定为后验概率最大的那个类。

二、广义线性判别函数

既然可以有线性判别函数，那么同理可以有二次判别函数（quadratic），其决策面是超二次曲面；进一步可以有多项式判别函数（polynomial）。所谓广义线性判别函数（generalized linear），就是指

$$g(\textbf x)=\sum_{i=1}^{\hat d}a_iy_i(\textbf x)=\textbf a^{\top}\textbf y$$

这里 $\textbf y=(y_1(\textbf x),y_2(\textbf x),\cdots,y_{\hat d}(\textbf x))^{\top}\in \mathbb R^{\hat d}$ ，将 $\textbf x$ 映射到 $\hat d$ 维空间。齐次的形式标明了该判别函数所决定的决策面通过新空间的原点，新空间中的任一点到决策面的距离为 $\textbf a^{\top}\textbf y/||\textbf a||$ （根据上面 $r$ 的表达式可类似得到）。如果 $\hat d$ 足够大，那么 $g(\textbf x)$ 可以逼近任意判别函数，但是如果新空间的维数远高于原始空间的维数则会带来维数灾难（因为随着维数增多，需要的样本量指数级增长，之前的总结中提到过）。

举个例子：设一维空间下的样本，希望 $x<-1$ 或 $x>0.5$ 为正类，那么可以得到符合要求的判别函数为 $g(x)=(x-0.5)(x+1)=-0.5+0.5x+x^2$ ，所以这里就将一维样本映射到了三维空间：$\textbf y=(y_1,y_2,y_3)^{\top}=(1,x,x^2)^{\top}$ 。从图里可以看出，映射后的概率密度其实是退化的，在曲线上无穷大，曲线外为0，这是映射到高维空间时的一个普遍问题。

最低0.47元/天解锁文章

weixin_34232363

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习 —— 基础整理（六）线性判别函数：感知器、松弛算法、Ho-Kashyap算法...

这篇总结继续复习分类问题。本文简单整理了以下内容：（一）线性判别函数与广义线性判别函数（二）感知器（三）松弛算法（四）Ho-Kashyap算法闲话：本篇是本系列［机器学习基础整理］在timeline上最新的，但实际上还有（七）、（八）都发布的比这个早，因为这个系列的博客是之前早就写好的，不过会抽空在后台修改，感觉自己看不出错误（当然因为水平有限肯定还是会...
复制链接

扫一扫