transformer中的注意力相比于CNN中的注意力，效果好在哪里？

最新推荐文章于 2024-01-10 09:30:08 发布

cjY135768

最新推荐文章于 2024-01-10 09:30:08 发布

阅读量1.4k

点赞数 1

分类专栏：科研自感

本文链接：https://blog.csdn.net/cjY135768/article/details/119485299

版权

科研自感专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Q1:为啥transformer分割效果会比较好？
A1:因为它是基于自注意力，（自学习来分配权重，是软注意力的一种升级（都是0~1之间的权重），软注意力是人为分配的，还有一种硬注意力，是0或1，分配或者不分配权重；而软注意力和自注意力都是多少会分配权重，只是有多有少的问题），解决长文本间的***依赖***（相互注意力权重的影响）
Q2:但是CNN中也有注意力（或自注意力），它与trnsformer中的注意力机制有啥本质的区别？
A2:首先明确注意力机制本身就起源于NLP，所以无论是注意力还是自注意力，都有query,key,value,只不过基于CNN的注意力（如self.query_conv = Conv2d(in_channels=in_dim, out_channels=in_dim // 8, kernel_size=1)）是通过卷积最终得到合适的参数模型，而transformer的Query，key,value是通过词嵌入方式得到,再计算相互之间的权重，这种方式得到的权重可解释性强，（相比于基于CNN的黑箱子得到的权重），所以效果自然也就好些。（和组长讨论的结果）

彩蛋：所谓基于注意力机制的分割能够解决长文本间的相互依赖，从而达到很好的分割效果，可以理解为：以角膜神经分割为例，边缘部分由于像素不清晰，分辨率低等原因，导致分割效果不理想，这时，可以用注意力计算出易分割像素点对于不易分割的相互影响权重，通过这个权重就可以间接得使得不易分割的像素值变得相对分割了。（感觉说得挺玄乎，好像是学渣和学霸有了瓜葛，学渣也能有机会变学霸一样，哈哈哈~~，待研究！）

cjY135768

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
transformer中的注意力相比于CNN中的注意力，效果好在哪里？

Q1:为啥transformer分割效果会比较好？A1:因为它是基于自注意力，（自学习来分配权重，是软注意力的一种升级（都是0~1之间的权重），软注意力是人为分配的，还有一种硬注意力，是0或1，分配或者不分配权重；而软注意力和自注意力都是多少会分配权重，只是有多有少的问题），解决长文本间的***依赖***（相互注意力权重的影响）Q2:但是CNN中也有注意力（或自注意力），它与trnsformer中的注意力机制有啥本质的区别？A2:首先明确注意力机制本身就起源于NLP，所以无论是注意力还是自注意力，都有
复制链接

扫一扫