![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
paper
文章平均质量分 93
cyz0202
这个作者很懒,什么都没留下…
展开
-
注意力机制的一种卷积替代方式
注意力的卷积替代原创 2022-06-22 09:35:32 · 969 阅读 · 0 评论 -
I-BERT
I-BERT原创 2022-06-20 16:18:37 · 668 阅读 · 0 评论 -
RealFormer
1)本文参考自@苏剑林 RealFormer:把残差转移到Attention矩阵上面去,主要是做一些个人的注解2)以下阴影背景部分为引用上述文章,“注:”部分为本文添加背景Layer Normalization 是 Transformer 模型的重要组成之一,它的用法有 PostLN 和 PreLN 两种,论文 On Layer Normalization in the Transformer Architecture [1] 中有对两者比较详细的分析。简单来说,就是 PreLN 对梯度下降更加.原创 2021-01-26 14:30:51 · 645 阅读 · 1 评论 -
软模板SoftProto框架
软模板SoftProto框架武汉大学的EMNLP2020文章,该工作提出基于软模板的 SoftProto 框架来增强方面词抽取任务,旨在解决评论文本中方面词和环境词具有长尾分布的问题。主要内容参见论文作者的文章-here简要介绍:问题与动机:由于缺少包含尾部词的样本,序列标注器可能会收敛到较差的状态。如图 1 所示,在常用的 SemEval 数据集中,大约 80% 的方面词和环境词(即非方面词)都出现不超过 5 次。方法:为了解决上述问题,我们的基本设想是将样本相互关联起来,从而帮助罕见词的抽原创 2020-12-03 18:43:52 · 348 阅读 · 0 评论