感知机来源于M-P神经元,是罗森布拉特提出的
什么是学习率?和步长有什么区别?
怎么确定初始学习率?怎么在深度学习中进行学习率调整?
两个激活函数有什么区别?
感知机学习算法
所谓的神经网络的学习规则,就是调整神经元之间的连接权值和神经元内部阈值的规则
调整规则:用学习率乘以差错来对应于修正权重
以区分西瓜香蕉为例
假如输入一个西瓜,得到输入权值,则得到输出结果为
,y=0
输出值并不是西瓜,而是香蕉
因此我们需要通过感知机学习进行修正,修正规则为
设置学习率为l,y为期望输出,为实际输出,则修正权重为
学习率l我们给个默认值1.5,则
则
然后
,得到y=1
因此预测正确为西瓜
在这种参数下
对于香蕉而言
,得到y=0
香蕉也预测正确
将看成-1*=,那么感知机的几何意义可以看做
如果识别对象x有n个特征,那么感知机可以看做在n维实例空间(即点空间)中的超平面决策面,以向量的形式写出来就是如下所示:
感知机可以看做是一个超平面划分空间位置的识别器
svm将感知机的不唯一变为唯一
感知机的表征能力
所有的数学法则,都可自下而上的通过无可辩驳的基本逻辑来实现
感知机的缺点:不能实现异或运算,只能实现与、或、非运算
明斯基已经证明,若两类模式是线性可分的,那么一定存在一个线性超平面可以将它们区分开来,这样的感知机,其学习过程一定会趋于稳定下来,神经网络的权值可以学习得到。
对于线性不可分原子布尔函数(如异或操作),就不存在简单的线性超平面将其区分开来。在这种情况下,感知机的学习过程就会震荡,权值向量就难以求得合适解。
单层神经网络无法解决不可线性分割的问题,典型的证据就是不能实现异或门电路功能。