从感知器到神经网络

最新推荐文章于 2022-10-19 19:34:51 发布

pku_zzy

最新推荐文章于 2022-10-19 19:34:51 发布

阅读量923

点赞数

分类专栏： Machine Learing

本文链接：https://blog.csdn.net/PKU_ZZY/article/details/60462969

版权

Machine Learing 专栏收录该内容

45 篇文章 1 订阅

订阅专栏

从感知器到神经网络

感知器(Perceptron)

最近写了一些简单感知器实现NLP任务的代码，对感知器算是掌握了。

感知器就是一个根据输入 $x$ ，输出 $h(x)=sgn(w\dot \ x+b)$ 的神经元。
因为感知器只有input layer和一个神经元的output layer，所以一个感知器只能处理一个本质feature或者做一个二分类。

训练感知器可以使用随机梯度算法，但是 $h (x)$ 数学性质不够好，所以改成 $h(x)=\sigma(w\dot \ x+b)$ ，其中 $\sigma(x)$ 是一个激活函数，其实这样一来单个感知器可以用于Logistic回归。在Logistic回归中讨论过激活函数的使用，一个最大似然估计是 $\sigma(x)=sigmoid(x)$ ，当然如果输出不在 $(0, 1)$ 内而在 $(- 1, 1)$ 内，可以使用 $\sigma(x)=tanh(x)$ (事实上这个函数仅仅通过 $s i g m o i d (x)$ 平移伸缩变换就可以得到)。反正激活函数的使用是很有讲究的，但是我不太懂具体细节，知道这是一个最大似然估计的结果就好了。

还有一种朴素的训练方法就是如果输出正确则不更改权重，否则认为这一次输入对应的权重估计有问题，所以直接在权重中减去对应输入分量。虽然这是一个土办法，但是如果输入也是feature的有无0/1，我们经常会用，但方法没有一个名称，后来才知道这是梯度随机算法的一个特例，梯度直接使用输入这一个数据估计，叫在线算法或者增量算法。

感知器网络(Perceptron Net)

如果有多分类问题，可以配置多个感知器感知每一个类别，输出它们的最大值就是所属的类别。

因为最大值的数学性质不好，所以我训练就直接用类似训练感知器的在线算法处理：对于正确预测不做处理，预测错误则惩罚错误的最大值感知器对应权重，给正确的感知器对应权重增益。

事实上，如果要用随机梯度算法来处理感知器网络训练，可以认为感知器网络是一个hidden layer，那么output layer是一个与hidden layer一样大，但是做了一个softmax，(softmax之所以是softmax，因为看起来它的表达式和max没联系，但事实上在指数较大时候就趋向于一个max函数)