机器学习--感知器

最新推荐文章于 2024-01-15 16:03:26 发布

晚照

最新推荐文章于 2024-01-15 16:03:26 发布

阅读量483

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/shibianzhu9168/article/details/80919999

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

感知器

这一篇我们要来说说感知器。感知器这个算法，可以说有点冷门，它太初级，不管是学术上还是工业界，没人用的。但是我要说，这个算法真的很重要。甚至可以说，它是很多算法的源起。前面所说的逻辑回到跟它有千丝万缕的联系，而且它是SVM和神经的基础。光着一句话告诉大家，真的就是三天三夜都说不完了。
为什么我纠结于这个算法呢？其实这个算法很好说的，它简单。把这个算法模型形式写出来， $y$ 等等怎样怎样 $x$ ，它有什么什么损失函数，学习算法。但是这样说来，那套现有概率后建模的说法是不是就不对了？还是说，感知机就是在原有的欧式空间建模，并没有把样本映射到概率空间。那套概率-建模的观点并不能适用于所有的模型？
这些问题的答案很重要，远比一个感知机算法重要，后面如果讲到神经网络，也有这个问题，怎么从概率角度解释SVM，解释神经网络？我暂时没有答案。待写。

好吧,不那么教条了，暂时不能把这类模型纳入那套概率解释下就先把感知器包括之后的SVM视为之欧式特征空间直接建模。
(大部分都是李航博士统计学习方法里面的内容，可以直接去看那本书，博主这里就当是自己复述一遍，加深印象了)
感知器的决策函数是由输入空间到输出空间如下的映射：

f (x) = s i g n (w T x)

$f(x)=sign(w^Tx)$
注意我写的

x x $x$ 里面已经包括偏置项。

s i g n

$sign$ 是所谓的符号函数，形式如下：
好吧我还真不知道怎么打那种大括号，口述一下，就是

x x $x$ 大于等于0的时候

f (x)

$f(x)$ 等于+1，x

小于0的时候小于 0 的时候 $小于0的时候$ f(x)$等于-1。
这样讲，也可以说逻辑回归是吧特征映射到概率空间。感知机是把特征映射到了{-1,1}空间。
一般来说呢，感知机模型都是从几何角度去解释，这不就相当于在特征空间里划一条线，线这边是-1，线那边是+1.。所以这里也可以看到，感知机是假设数据是线性可分的，所谓线性可分就是说确确实实可以存在这样是一条线，更专业点说是超平面把数据集分开的。换言之，感知机这种模型只能处理线性可分问题。这么简单的模型，还要啥自行车！

学习策略

那问题来了，怎么调整模型参数使之可以成为那样的一个超平面呢？机器学习是基本思路，设定一个损失函数，最小化之。
什么样的损失函数可以达到这个目标呢？
首先我们定义，空间内一点到超平面的距离是：

1 | | w | | | w . x 0 + b |

$\frac{1}{||w||}|w.x_0+b|$
假如我们初始化了模型参数，现在有了这样的一个超平面，肯定有被误分类的对不对，我们初始化的水平没那么高。对于一个误分类点

(xi,yi) ( x i , y i ) $(x_i,y_i)$ 来说：、

- y i (w . x i + b) > 0

$-y_i(w.x_i+b)>0$
因此误分类点到超平面的距离是

- 1 | | w | | y i | w . x i + b |

$-\frac{1}{||w||}y_i|w.x_i+b|$
假设目前为止总共有m个误分类点，那么所有误分类点到超平面的距离是：

- 1 | | w | | \sum x i \in M y i | w . x i + b |

$-\frac{1}{||w||}\sum_{x_i \in M}y_i|w.x_i+b|$
可以看到这个损失函数是非负的，它的最小值是0，那它什么什么取到0呢？就是，没有误分类点的时候。

学习算法

所以我们现在面对是一个最优化问题。采用梯度下降算法。
损失函数：

- \sum x i \in M y i | w . x i + b |

$-\sum_{x_i \in M}y_i|w.x_i+b|$
我们把前边的系数拿掉了，再讲到SVM的时候详细说。
那就求导呗，先对

w w $w$ 求导：

▽_{w} L (w, b) = - \sum_{x_{i} \in M} y_{i} x_{i}

$\triangledown_wL(w,b)=-\sum_{x_i \in M}y_ix_i$
还有对

b b $b$ 求导：

▽_{b} L (w, b) = - \sum_{x_{i} \in M} y_{i}

$\triangledown_bL(w,b)=-\sum_{x_i \in M}y_i$
那么现在出现误分类点了，就按照如下规则更新权重：

w \leftarrow w + η y i x i

$w \leftarrow w + \eta y_ix_i$

b \leftarrow b + η y i

$b \leftarrow b + \eta y_i$

η η $\eta$ 是步长，大家都懂的

对偶问题

以上称为感知机学习算法的原始形式，它还有个对偶形式，大家要问了，为什么还要想出来一个对偶形式呢？往下看就知道了。
为了不失一般性，我们假设初始化的时候w,b都是0，上面也说了，出现误分类点就按照上面的方式更新参数。假设有n个误分类点就是修改了n次，我们一次性的给出：

w = \sum i = 1 N α i y i x i

$w = \sum_{i=1}^N\alpha_iy_ix_i$

b = \sum i = 1 N α i y i

$b = \sum_{i=1}^N \alpha_iy_i$

ai=niη a i = n i η $a_i=n_i\eta$ ,这里的

ni n i $n_i$ 要注意，这是表示地

i i $i$ 个样本被使用了多少次！
现在感知器的模型编程了：

f (x) = s i g n (\sum_{j = 1}^{N} α_{i} y_{j} x_{j} . x + b)

$f(x)=sign(\sum_{j=1}^N\alpha_iy_jx_j . x+b)$
如果有

yi∑Nj=1αiyjxj.x+b<=0 y i ∑ j = 1 N α i y j x j . x + b <= 0 $y_i\sum_{j=1}^N\alpha_iy_jx_j . x+ b <= 0$ ,就是所出现了误分类点，那么：

α i \leftarrow α i + η

$\alpha_i \leftarrow \alpha_i + \eta$

b \leftarrow b + η y i

$b \leftarrow b + \eta y_i$
为了方便，可以提前把训练集实例间的内积计算好存储起来，这就是所谓的Gram 矩阵，用的时候索引就行了，这样快啊，对偶形式的意义就在这

晚照

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习--感知器

感知器这一篇我们要来说说感知器。感知器这个算法，可以说有点冷门，它太初级，不管是学术上还是工业界，没人用的。但是我要说，这个算法真的很重要。甚至可以说，它是很多算法的源起。前面所说的逻辑回到跟它有千丝万缕的联系，而且它是SVM和神经的基础。光着一句话告诉大家，真的就是三天三夜都说不完了。为什么我纠结于这个算法呢？其实这个算法很好说的，它简单。把这个算法模型形式写出来，yyy等等怎样怎样xx...
复制链接

扫一扫