![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Bert
文章平均质量分 78
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
XLNet: Generalized Autoregressive Pretraining for Language Understanding
与基于自回归语言建模(AR LM)的预训练语言建模方法相比,基于降噪自编码的预训练方法具有良好的双向上下文建模能力。然而,由于Bert需要 mask 一部分输入,忽略了被 mask 位置之间的依赖关系,因此出现预训练和微调效果的差异(pretrain-finetune discrepancy)。针对这些优缺点,我们提出了XLNet,这是一种广义的自原创 2022-10-10 17:37:39 · 605 阅读 · 0 评论 -
Transformer模型对应的Tokenizer类型
各种Transformer模型对应的Tokenizer类型,原创 2022-06-29 13:27:38 · 1053 阅读 · 0 评论 -
SimCSE: Simple Contrastive Learning of Sentence Embeddings
摘要这篇文章提出了SimCSE,一个简单的对比学习网络架构,可以取得超过SOTA的句子级别表征性能。我们首先阐述了非监督方法,将一个句子作为输入,并以标准的dropout作为噪声的对比学习的方式预测这个句子本身。这种简单的方法效果出奇地好,基本可以达到之前监督学习的水准。我们发现,dropout是作为最小数据增强的功能,将其移除掉会导致表达能力的急剧降低。然后,我们又提出监督学习的方式,结合NLP任务中的打标样本对,将”蕴含“句子对作为正样本,将”矛盾“句子对作为负样本。在标准的STS任务上进行评估,我原创 2022-04-08 16:06:19 · 3947 阅读 · 0 评论 -
Bert的四处dropout,你知道都在哪里嘛?
第一处:embedding后的dropoutdef embedding_postprocessor(input_tensor, use_token_type=False, token_type_ids=None, token_type_vocab_size=16, token_type原创 2022-04-06 18:01:38 · 3361 阅读 · 0 评论