Longformer论文解读和代码解析

最新推荐文章于 2025-04-22 23:55:04 发布

菜比

最新推荐文章于 2025-04-22 23:55:04 发布

阅读量3.8k

点赞数 2

文章标签：深度学习自然语言处理机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42105164/article/details/120768081

版权

前言

这篇博文记录了longformer论文的主要思想、代码实现和结果复现方面的一些工作，相关链接如下：
原longformer论文地址
 github上原作者公开的代码
 huggingface上原作者编辑的longformer模块

原论文解读

其时transformer-xl已经突破了transformer对处理文本长度的限制，那longformer的意义是什么呢？原作者的解释是这样的：

transformer-xl处理长文本时按从左到右的方式自回归处理，这样每一个segment只能看到其所在的segment和其之前的segment，而看不到其后方的内容。这对于需要双向信息的任务是不利的（比如QA），而longformer将整个长文本直接输入，避免了transformer-xl的问题。

longformer的核心技术

longformer本质上是一种sparse attention的方法，也就是每个token不是attend到整个输入文本，而仅attend一个窗口大小的范围。这个窗口在此token附近。 根据前人的工作[1]，这种处理是合理的。并且将模型运行的时间复杂度从与文本长度的二次相关降到了一次相关。

需要注意的是，这里的一次相关不是如下形式： $required\_time=k*len(context)+b$ 而是这样的： $required\_time=k*T*\lceil (\frac{len(context)}{len(sliding\_window)})\rceil+b$ longformer将输入文本长度截断/填充到了滑动窗口长度的整数倍，对应了向下取整/向上取整（上面公式只列出一种情况）。上述公式中的参数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。