解决的问题:
反向传播的增量自适应方法容易受假极小值影响
效果:
- 替换sigmoid激活函数(这里用统计推导出的另一个激活函数)
- 决策边界可以实时修改
- 计算非线性决策边界来接近贝叶斯最优
- 并行操作
- 反向传播速度更快
纲要:
- 说明贝叶斯决策讨论和概率密度函数的非参数估计的作用
- 统计学技术映射成前馈神经网络
看过的小伙伴可以发现关键词以及文中提到比较多的就是Parzen,感兴趣的话可以看《On Estimation of a Probability Density Function and Mode》全文(数学性很强)
对于前面一部分关于Parzen论文中的理论,主要展示了当样本数量趋于无穷是否能够逼近真实的概率密度函数(即一致性Consistency),并讨论了平滑参数sigma对模式分类的影响,分成了三类
- sigma小的时候,分类比较明显
- 大一些的时候,区分度下降
- 再大一些,分不清
文章是以多变量估计,如下
其实,这个定性分析也很好理解,分子不动的时,分母也就是sigma越大越宽,越小越窄(可以以一维画一下,很好理解)
THE PROBABILISTIC NEURAL NETWORK
核心部分来了,虽然说网上有很多相关介绍,但你发没发现都是来回抄来抄去,第一个人不对,其他人也不对,恶性循环,导致读者白白花时间看,最终还是没懂
- 文章针对的是多分类问题(输出单元多个)
- 输入层
原文the input units are merely distribution units that supply the same input values to all of the pattern units(译过来就是:对所有模式单元提供相同输入值(因为每个输入单元和所有模式单元都相连了)的分布单元)
- 模式层和求和层
原文比较隐含的说明该层的组成The summation units simply sum the inputs from the pattern units that correspond to the category from which the training pattern was selected.(译过来就是:求和单元简单地将与所选训练模式的类别相对应的模式单元的输入相加),是不是翻译仍难不好懂,意思就是每个求和单元是一种训练模式,该单元求的和是归属该模式范畴/类别对应的模式层单元,也就意味着模式层单元是各个模式下的类别或范畴,从上图第二层到第三层箭头指向也能看出来
模式和类别具体差别是什么?
模式:数据中的某种特性或结构
类别:通过模式来确定归属于哪一类或者对应的标签
进一步分析模式层和求和层关系,即——通过一个个模式(数据特性/结构)与各各类别之间的相关程度,最终确定归属哪一类
- 输出层
论文写道
输出单元有两个输入,这些单元产生二进制输出,结构如下
以上呢就是PNN的四个层结构了
- 激活函数选择
文章也列举其他在满足决策条件下,实现渐近贝叶斯最优的激活函数,感兴趣可以去原文看,当然原文也说明了,网络中常见元素的取值,这里就不赘述了(主要是数学性比较强,感兴趣可以深究)
- sigma取值
对于sigma当取无穷大时,等价于一个超平面,线性分类器,当趋于零等于最邻近分类器的决策边界,即非线性,能更好适应复杂的数据分布,当然这两种极限请跨不能对两种分布提供最优化的分离.
文章还表明sigma在一定取值范围内结果都是接近最优的
先写这些,后续章节有问题可以互相讨论,有不对的地方请指正