[论文笔记] DCA（Dual Chunk Attention）

心心喵

于 2024-07-23 11:23:44 发布

阅读量5

点赞数

分类专栏：论文笔记文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Trance95/article/details/140630928

版权

论文笔记专栏收录该内容

91 篇文章 5 订阅 ¥299.90 ¥99.00

订阅专栏

超级会员免费看

DCA（Dual Chunk Attention）是一种在自然语言处理模型中用来处理长文本的技术。传统的注意力机制（Attention）在处理长文本时可能会遇到效率和性能瓶颈，因为计算每个单词与其他所有单词之间的关系会随着文本长度的增加而变得非常耗时且占用大量内存。

DCA 的核心思想

DCA 的核心思想是将长文本分割成多个较小的“块”（chunks），然后分别在这些块内和块之间应用注意力机制。具体步骤如下：

分块：将长文本分割成若干个小块，每个小块包含一部分文本。例如，一个2000词的文本可以分割成4个每块500词的小块。
块内注意力：对每个小块单独应用注意力机制。这意味着每个块内的单词只与同一个块内的其他单词进行注意力计算，这样可以显著减少计算量。
块间注意力：在计算完块内注意力后，再在这些块之间应用注意力机制。这意味着每个块会与其他块进行全局信息的交互，以捕捉整个文本的上下文关系。

通过这种方式，DCA 能够有效地处理长文本，同时保持较高的计算效率和较低的内存占用。

通俗举例

假设我们有一篇长文章，我们可以将它比作一个长队伍。普通的注意力机制需要每个人（单词）与队伍中的每一个其他人都打招呼（计算注意力），这在队伍非常长时会变得非常麻烦且耗时。

而 DCA 的方法是先把队伍分成若干个小组，每个人先只跟自己小组内的人打招呼（块内注意力），然后每个小组派一个代表去和其他小组的代表打招呼（块间注意力）。这样一来，每个人最终还是能知道其他所有人的信息，但过程更加高效且不那么累。

总结

DCA 通过分块处理和分步注意力计算，巧妙地解决了长文本处理中的计算和内存瓶颈问题，使得模型在处理长文本时既高效又有效。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[论文笔记] DCA（Dual Chunk Attention）

DCA 通过分块处理和分步注意力计算，巧妙地解决了长文本处理中的计算和内存瓶颈问题，使得模型在处理长文本时既高效又有效。
复制链接

扫一扫

专栏目录

心心喵 CSDN认证博客专家 CSDN认证企业博客

码龄7年

692: 原创

3694: 周排名

3084: 总排名

58万+: 访问

: 等级

8571: 积分

5448: 粉丝

533: 获赞

85: 评论

1005: 收藏

私信

关注

热门文章

分类专栏

论文笔记付费 91篇
机器学习付费 33篇
算法导论付费 170篇
nlp 付费 115篇
redis
paddle
预训练语言模型 2篇
机器视觉
OT 3篇
强化学习 1篇
java 7篇
linux 141篇
RS 8篇
c 5篇
c++ 13篇
python 28篇
tensorflow2.0 7篇
深度学习 14篇
笔记
pytorch 7篇
LRFR 1篇
论文 2篇
cv 13篇

最新评论

[论文笔记] DCA（Dual Chunk Attention）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] pai-megatron-patch Qwen2-72B/7B/1.5B 长文本探路
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] CT数据配比方法论——1、Motivation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] CT数据配比方法论——1、Motivation
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
[论文笔记] pai-megatron-patch Qwen2-CT 长文本rope改yarn
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

心心喵 喵喵(*^▽^*）

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。