nlp
相知无悔
这个作者很懒,什么都没留下…
展开
-
Longformer论文解读: The Long-Document Transformer
文章目录Longformer要解决什么问题Longformer怎么解决固定窗口跳跃滑动窗口全局注意力实现细节实验结果实验自回归语言模型text8的消融实验WikiHop的消融实验Qa任务Longformer要解决什么问题原始transformer有O(n^2)时间空间复杂度(根据attention的公式,每个位置的Query都需要关注每个位置的Key),n是输入文本的长度。长文档时,原始transformer的复杂度太高。对于长文档,通常做法切分文档(单块限制在512内)切分的文档之间没有交互信息,这原创 2020-09-13 09:13:48 · 2497 阅读 · 0 评论 -
ReFormer论文解读(THE EFFICIENT TRANSFORMER)
ReFormer论文解读(THE EFFICIENT TRANSFORMER)Reformer要解决的问题attention的内存、计算复杂度是文本长度L的平方复杂度即O(L* L)(self-attention每个位置都要看整句的其他每个位置), 这在超长文本时(比如文章)是不可接受的。传统transformer一般是按512长度分块,这样损失了块与块之间的互信息。原生transformer训练是需要的内存是层数的倍数(因为反向传播是需要存储每层的结果来求误差的梯度)。feed-forward层原创 2020-09-12 17:04:17 · 2713 阅读 · 0 评论 -
机器学习面试整理
sigmod函数sigmoid的导数小于0.25交叉熵损失函数softmaxsoftmax +cross entropy原因:交叉熵比均方误差好(即使与label中1所对应下标的预测值是正确的,其他项预测值的分布也会影响损失的大小,这不符合我们对于分类问题损失函数的预期),似然估计的视角:交叉熵就是对应于该样本的负对数似然估计等价于KL散度又被称为相对熵。softmax+cr...原创 2019-11-14 15:23:05 · 734 阅读 · 0 评论