![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
译文
文章平均质量分 92
做知识的译工
leap_ruo
这个作者很懒,什么都没留下…
展开
-
ChatGPT前身GPT的论文-译文
GPT论文,ChatGPT,小样本学习,零样本学习,zero-shot,few-shot,自然语言任务原创 2023-07-08 10:28:07 · 478 阅读 · 0 评论 -
论文浅析-Unsupervised Embedding Learning via Invariant and Spreading Instance Feature
摘要本文主要研究无监督embedding问题,该问题要求在低维度embedding空间有效地度量样本之间的相似性。基于从分类有监督学习汇中观察到正集中而负分散的特性(即:同类别样本距离相近,从而会集中在一起;不同类别样本距离较大,从而会分散分布),我们提出利用有监督样本来近似这个特性,旨在学习数据扩展不变性和样本扩展性。为了达到这个目标,我们提出基于样例的softmax embedding方法,该方法直接优化softmax函数上的“真是”的实例。与现有所有方法相比,它的学习速度更快、准确率更高。提出的.原创 2020-11-15 19:13:14 · 1536 阅读 · 0 评论 -
Google天马(PEGASUS)模型
前言:谷歌研究人员提出了PEGASUS模型,用于提取文章摘要。今天就对PEGASUS模型做简单介绍。论文源码预训练目标研究人员假设,预训练目标越接近下游任务,那么就能更快更好的微调效果。为此,他们设定下游语言任务为“提取文本摘要”,而预训练目标为“生成间隙句子”(Gap Sentences Generation)。Gap Sentences Generation(GSG)研究人员提出了一个自监督的预训练来生成文本摘要, 重点在于预训练的时候的目标是把生成间隙句子(GSG), 所以在提取文本摘要的原创 2020-07-26 20:58:37 · 4081 阅读 · 2 评论 -
译文 Attention Is All You Need
摘要主流的序列转换模型基于负责的递归或者卷积神经网络,包括编码器和解码器。性能最好的模型也是通过注意力机制链接编码器和解码器。我们提出来一种新的简单的网络结构——Transformer——仅仅基于注意力机制,完全不需要递归和卷积网络。在两个机器翻译任务上的实验表明,这些模型在质量上优于其他模型,且具有更高并发性和更少的训练时间。我们模型在WMT 2014英语翻德语的任务上取得了28.4 BLEU,提升了现有最好的结果,包括以2 BLEU由于集成方法。在WMT 2014英语翻法语的任务上,用8个GPU训练了原创 2020-06-07 21:04:26 · 763 阅读 · 0 评论 -
译文:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
摘要BERT (Devlin et al., 2018)和RoBERTa (Liuet al., 2019)已经在句子对回归任务上取的了最新最好的效果,比如语义文本相似任务(STS)。然而,这需要将两个句子的都喂给网络,这就引起大量的计算消耗:从你1万个句子中找相思对,就需要用BERT进行5千万推力计算(耗时约65小时)。BERT的结构不合适语义相似搜索,同样也不适用于类似聚类的无监督任务。在本论文中,我将呈现预训练BERT的改进版–Sentence-BERT (SBERT),使用二元或者三元网络结构来原创 2020-05-24 14:07:13 · 2309 阅读 · 3 评论 -
译文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
Bert: 针对语言理解双向深度transformer的预训练模型摘要本文介绍一种新的语言表达模型-BERT(Bidirectional Encoder Representations from Transformers).与近期语言表达模型 (Peters et al., 2018a; Radford et al., 2018)不同的是,Bert通过在所有层上调节双向上下文来预训练未标定数据的双向深度模型。结果,预训练的bert模型仅靠额外输出层的微调,且没有大量的针对任务做结构调整,就在多种任务上取原创 2020-05-16 13:37:53 · 1697 阅读 · 0 评论