tansformer的优点和缺点

最新推荐文章于 2024-08-01 15:05:06 发布

临街的小孩

最新推荐文章于 2024-08-01 15:05:06 发布

阅读量481

点赞数

分类专栏：人工智能文章标签： java servlet 服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/W25679/article/details/127217340

版权

人工智能专栏收录该内容

20 篇文章 0 订阅

订阅专栏

优点：

相比CNN，计算两个位置之间的关联所需的操作次数不随距离增长（任意两个单词的距离变成1）

突破了RNN模型不能并行计算的限制（只能从前往后移，一步一步的进行计算），特征抽取能力比RNN系列的模型要好。多头注意力机制是可以并行计算的。而且不同的头可以提取到不同的子空间的特征

全局信息的有效处理（因为每个单词都要和所有的单词进行attention计算），可编码更长的序列。

可解释性强

缺点：

序列较长时，计算耗时严重。计算任意两个词的权重，所以他的计算复杂度是N方，当序列长度很长的时候，这个耗时是非常严重的。

transformer需要一种方式来表示序列中元素的相对或绝对位置关系，

缺乏归纳偏置能力（例如：不具备CNN那样的平移不变性和局部性，因此在数据不足时不能很好的泛化到新的任务上），transformer 不具备先验的知识，他只是给了你一个数据，然后给了你一堆的模型让你自己去学习，然后学习出来的效果挺好，正好对应了某些句子空间的表示，那就真强了可解释性，那就不具备先验的假设在里边的。所以在数据量较少的时候，不一定能取得比CNN或者RNN 较好的效果。

没有局部特征的捕获能力，这个时候其实可以和RNN或者CNN这个具有局部特征表示的模块结合起来使用可能会有更好的效果。

临街的小孩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tansformer的优点和缺点

tansformer的优点和缺点
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。