以前邹班的SMT没认真听,还得重新回来捡。
参考自:https://blog.csdn.net/u013010889/article/details/78722140/
CNN的缺点:
忽略了图片中的位置信息,如果在图片中检测到眼睛鼻子等,就认为这是一张人脸,但如果把这些器官打乱,还是会误识别为人脸,这是CNN中max pooling的特性造成的。
如上图所示,我们通俗的将每个神经元的输出理解为这张图具有此特征的可能性(接近1就越可能具有某种特征),这里是用一个scale标量来表示图片是否具有此特征,capsule的思想就是把这些特征做出embedding,用一个向量来表示。所以就使得神经元的输出是向量而不是标量。
胶囊网络的单元结构和普通的神经元的区别在上图很明显了。核心思想大概就这些,具体细节或其他可以参考引用中的博客或者原文。