感知器-----preceptron

最新推荐文章于 2022-05-15 22:40:31 发布

独步计院

最新推荐文章于 2022-05-15 22:40:31 发布

阅读量951

点赞数 2

分类专栏：机器学习文章标签：数据机器学习感知器

本文链接：https://blog.csdn.net/sjkldjflakj/article/details/51873658

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

感知器是一种简单的线性分类器

对于一组数据X=（ $x_1,x_2,...,x_n$ ）,其中每一个 $x_i$ 代表了一个属性值，那么这个属性值所代表的属性的重要程度可能是不同的，我们用一组权重的向量代表每个属性的重要程度， $\mathbf{W}={(x_1,w_2,...,w_n)}$ 这样对每一组数据我们可以计算出一个得分score,他可能代表了一些具体含义，比如某客户的信用额度。那么当score与某一临界值作比较时，分类器就产生了。具体来说：

h (x) = s i g n (\sum i = 1 n w i x i - t h r e s h o l d * 1)

$h(x)=sign(\sum_{i=1}^nw_ix_i-threshold*1)$
为什么要乘以1呢
这里是为了化简，如果把1看作

x0 $x_0$ 把threshold看作

w0 $w_0$ 那么

h (x) = s i g n (\sum i = 0 n w i x i) = s i g n (w T x)

$h(x)=sign(\sum_{i=0}^nw_ix_i)=sign(\mathbf{w}^T\mathbf{x})$
由此可以看出感知器就是一条直线，

wT $w^T$ 就是法向量，那么这种直线有成千上万条，我们如何确定一条最好的直线，即确定一个向量 w

PLA—–感知机学习算法
这里我们假设最开始的时候手里有随便一条曲线 $w_n$ ，这条曲线应用到已知的训练数据集中，那么会有错误的划分 $(x_n,y_n)$ 这时候我们去纠正我们的曲线 $w_{n+1}=w_n + y_nx_n$

具体算法：

for t = 1,2,…
- 找到错误划分节点 (xn(t),yn(t))
  - 即 $sign(w_tx_{n(t)})\neq{y_n}$
- 修正 wt
  - $w_{t+1}=w_t + x_ny_n$
直到没有错误节点返回 $w_t$

那么对于线性可分的数据，为什么感知机可以找到一条线呢：

假设 $w_f$ 是最好的直线

7.18日补充：这里还是大致说一下证明吧
我们要证明说存在 $w_f$ 是最好的分割线首先就要证明说每一次迭代 $w_{t+1}$ 都在向着最优直线靠拢，那这个怎么证明，用向量的内积，内积越大越接近。

这里写图片描述

有了这个还不够，因为有可能是数值变大导致的内积变大呢，那怎么办？我们想用一个标准的步长说明 $w_{t}$ 每次迭代的步长变化都不大。也就是每次长度没有太大的变化不会影响到内积。

这里写图片描述

最后那个式子是怎么证明出来的呢。
因为 $w_t$ 从0开始迭代的，所以有

w T f w T > = T * m i n (y n w T f x n)

$w_f^Tw_T >= T * min(y_nw_f^Tx_n)$

| | w T | | < = T - - \sqrt * m a x | | x n | | 2

$||w_T||<=\sqrt{T}*max{||x_n||^2}$

组合起来有了下面的式子。

具体证明就不写了，可以证明出

w T f w t ∥ w f ∥ ∥ w t ∥ \geq T - - \sqrt m i n ( y n w T f | | w f | | x n ) m a x ( | | x n | | 2 )

$\frac{w_f^Tw_t}{\Vert{w_f\Vert}\Vert{w_t}\Vert}\ge{\sqrt{T}\frac{min(y_n\frac{w_f^T}{||w_f||}x_n)}{max(||x_n||^2)}}$
也就是任意直线

wt $w_t$ 不断向最优直线靠拢，T为迭代次数。

T - - \sqrt m i n ( y n w T f | | w f | | x n ) m a x ( | | x n | | 2 ) \leq 1

${\sqrt{T}\frac{min(y_n\frac{w_f^T}{||w_f||}x_n)}{max(||x_n||^2)}}\le1$

但是我们可能不确定数据集是否是线性可分的，这时候我们希望求得一条直线，这条直线犯的错误最少

w g \leftarrow a r g min w \sum i = 1 n [y n \neq s i g n (w T x n)]

$w_g \leftarrow arg\min_w{\sum_{i=1}^n[y_n \neq{}sign(w^Tx_n)]}$
口袋算法-pocket algorithm
这是一种贪婪算法。

我们每求得一个w就去看这个w犯的错误的个数，并且与之前的w作比较,如果更好则替换这个w
这里写图片描述

那么如果一个数据集确实是线性可分的，然而我们采用了pocket算法，那么事实上他的速度要比PLA慢，因为pocket不仅仅要存w,而且比较的时候要遍历所有数据集来找出划分错误的点进行比较。

独步计院

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
感知器-----preceptron

感知器是一种简单的线性分类器对于一组数据X=（x1,x2,...,xnx_1,x_2,...,x_n）,其中每一个xix_i代表了一个属性值，那么这个属性值所代表的属性的重要程度可能是不同的，我们用一组权重的向量代表每个属性的重要程度，W=(x1,w2,...,wn)\mathbf{W}={(x_1,w_2,...,w_n)}这样对每一组数据我们可以计算出一个得分score,他可能代表了一些具体含义
复制链接

扫一扫

专栏目录