精读论文系列
文章平均质量分 85
精读论文,并做论文笔记,最终会有自己对该论文的思考。
小千不爱内卷
这个作者很懒,什么都没留下…
展开
-
ELECTRA:将文本编码器作为判别器而不是生成器进行预训练
相比于随机替换成其他token,使用一个生成器将生成的内容替换mask,使得生成的这个词比随机替换的词在语义上更接近真实词语,这就使得判别器需要更加深入理解上下文语意才能判别出这个词语是否被替换掉,提升了判别器的理解能力。也就是用xt的token embedding点乘生成器经过编码后的xt的embedding,然后除以所有的x的token embedding点乘的和,算出一个概率,找出最大的概率。生成器的输出用的是一个softmax,算出[mask],也就是x位置是xt的概率,并找出最大概率作为输出。原创 2023-04-23 16:40:06 · 162 阅读 · 1 评论 -
Bart:用于生成、翻译、理解的去噪的序列到序列的预训练语言模型
Bert:GPT:Bart:输入通过任意噪声变换(途中包括掩码、位置变换),先输入双向编码层进行编码,然后使用自回归解码器进行解码。噪声设置很灵活。对原始文本任意变换,包括随即洗牌原始句子的顺序;将任意长度跨度的文本(包括0长度)替换为一个单一的mask token。原创 2023-04-19 09:16:12 · 552 阅读 · 0 评论 -
[论文阅读] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts(MMoE模型)
[论文阅读] Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts(MMoE模型)翻译 2022-11-06 15:43:21 · 290 阅读 · 1 评论 -
[阅读论文] RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining
[阅读论文] RoCBert: Robust Chinese Bert with Multimodal Contrastive Pretraining原创 2022-10-13 21:55:38 · 1416 阅读 · 7 评论 -
阅读文献“Learning Transferable Visual Models From Natural Language Supervision”(CLIP)
阅读文献“Learning Transferable Visual Models From Natural Language Supervision”(CLIP)原创 2022-09-27 22:52:02 · 557 阅读 · 0 评论 -
阅读文献“Language Models are Unsupervised Multitask Learner”(GPT-2)
阅读文献“Language Models are Unsupervised Multitask Learner”(GPT-2)原创 2022-09-27 22:50:00 · 261 阅读 · 0 评论 -
阅读文献:“Improving Language Understanding by Generative Pre-Training”(GPT模型)
阅读文献:“Improving Language Understanding by Generative Pre-Training”(GPT模型)原创 2022-09-27 22:48:17 · 434 阅读 · 0 评论 -
综述类文献 “Pre-trained Models for Natural Language Processing: A Survey”
综述类文献 “Pre-trained Models for Natural Language Processing: A Survey”原创 2022-09-27 22:45:34 · 480 阅读 · 0 评论