CNN和Transformer优缺点

一、全局信息和局部信息
(一)局部信息
提取位置:浅层网络中提取局部信息;
特点:对应的感受野比较小,所以是在网络中的前面部分,提取局部信息,物体的几何信息比较丰富;
目的:有助于分割比较小的目标,细化,提高分割的精确程度。
(二)全局信息
提取位置:深层网络中提取全局信息;
特点:对应的感受野比较大,所以是在网络的中/后部分,提取全局信息,物体的空间信息比较丰富;
目的:有助于分割比较大的目标,提高分割的精确程度。
总结:使用跳跃连接,将局部信息与全局信息进行融合,提高分割准确性。

二、感受野
定义:在CNNs中,决定某一层输出结果中的某一个元素对应在原始输入层的区域大小。
公式:

由上式可知,当前层的感受野和当前层的卷积核大小固定后,卷积步长stride越大,则当前层的感受野也越大。
当stride过大,则在卷积过程中,会导致卷积后的特征图信息丢失过多,很多特征无法被提取。因此我们需要在减小stride的同时,让感受野保存不变或者增大。

Transformer优点:
(1)突破了RNN模型不能并行计算的限制;
(2)相比CNN,计算两个位置之间的关联所需要的操作次数不会随着距离的增长而增加;
(3)attention机制可以产生更具可解释性的模型,可以从模型中检查attention分布,各个attention head可以学会执行不同的任务。
(4)Self attention天然就能解决这个问题,因为在集成信息的时候,当前单词和句子中任意单词都发生了联系,一步到位。(全局感受野)
Transformer缺点:
(1)局部信息的获取不如RNN和CNN强;
(2)位置信息编码存在问题,因为位置编码在语义空间中并不具备词向量的可线性变换,只是相当于人为设计的一种索引,所以并不能很好表征位置信息;
(3)由于transformer模型实际上是由残差模块和层归一化模块组合而成,并且层归一化模块位于两个残差模块之间,导致如果层数较多时连乘计算会使得顶层出现梯度消失问题。

单层CNN不具有远距离特征捕捉的能力,CNN+Transformer互补。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值