Transformer
文章平均质量分 94
Surpassall
好事多磨,戒骄戒躁~~
展开
-
《Character-Level Language Modeling with Deeper Self-Attention》文献阅读
本博文基于《Character-Level Language Modeling with Deeper Self-Attention》这篇文章进行讲解,该文章发表在2019年的AAAI会议上,作者来自Google AI。在本文中,作者展示了具有固定上下文的深层(64层)transformer模型(Vaswani et al.2017)在很大程度上优于RNN变体,在两个流行基准上实现了SOTA水平:text8上每个字符1.13位,enwik8上为1.06位。为了在这个深度上获得好的结果,作者证明在中间网络层.原创 2021-11-28 16:29:00 · 1011 阅读 · 0 评论 -
文献阅读《Self-Supervised Graph Transformer on Large-Scale Molecular Data》
这篇文章是腾讯AI Lab和清华大学合作,投稿在2020年NeurlPS上的文章,主要的工作是设计了一个预训练模型,能够在大规模的无标签的化学分子数据上进行自监督训练,使得模型在下游任务的泛化性更强。接下来进入这篇文章的大概解读。一、任务背景在人工智能驱动的药物设计和发现中,如何获得分子的信息表示是至关重要的先决条件。近年来,很多研究将分子抽象为图(Graph),并使用图神经网络(GNNs)进行分子表示学习。但是有两个问题阻碍了GNNs在真实场景中的使用:(1)用于监督训练的有标签分子数据不足;(2.原创 2020-12-09 17:47:18 · 2425 阅读 · 0 评论