论文解读系列
文章平均质量分 95
五点钟科技
机器学习、深度学习、自然语言处理、PLC、哲学、国学、音乐、书法……
展开
-
ChatGPT追祖寻宗:GPT-3技术报告要点解读
回顾一下GPT-1和GPT-2,GPT-1中主要用到了改变输入样式的方式让模型学会执行不同任务,GPT-2作者通篇在强调零样本学习,放弃用在输入中加入特殊符号区分不同任务的做法,改用纯自然语言输入的方式执行不同的任务,而在GPT-3中,作者又不再强调零样本的事了,也认为依靠大量的标注数据进行任务相关的微调不是个好主意,因为作者提到,人类对于新的任务的学习,往往只需要少量的样本就能学到新知识,估计作者认为也不能一个样本都不给,因此,作者想到了一个few-shot的方法,牛掰!原创 2023-09-21 22:46:12 · 1229 阅读 · 1 评论 -
ChatGPT追祖寻宗:GPT-2论文要点解读
这是摘要中值得注意的第一个点,作者提到,当他们在一个新的数据集(WebText)上训练GPT时,发现了语言模型能够在没有明确监督的情况下就具有学习不同任务的能力,这个发现可以说是非常之重要了,我比较好奇的是,为啥其它机构的大佬没有发现?这是第二个值得关注的地方,作者提到了一个目前看来很正确的结论,那就是模型的容量对于零样本任务迁移的成功以及模型的性能至关重要。作者举了个例子,它们的GPT-2拥有15亿个参数,所以在8个测试数据集中有7个测试取得了SOTA的结果。原创 2023-09-13 17:06:11 · 621 阅读 · 0 评论 -
ChatGPT追祖寻宗:GPT-1论文要点解读
摘要部分其实是介绍了一下GPT研究的动机,值得一提的是,GPT可以算是预训练+微调这种范式在NLP领域成功应用的先河,它比BERT还早几个月。摘要中提到,无标注数据是很多的,但是特定领域带标数据匮乏,这对于许多NLP任务中模型的训练是一个很大的挑战。先在大规模无标注数据集上训练一个预训练模型,接着再将此预训练模型放到特定任务中用少量数据微调。原创 2023-09-05 10:46:29 · 1078 阅读 · 0 评论 -
BART论文要点解读:看这篇就够了
BART沿用了标准的Transformer结构,也就是Encoder-Decoder的Transformer。BART的预训练主要依据以下两步走的思路:1)通过随机噪声函数(说白了就是能够制造破坏文档结构的任何方法)来破坏文章结构;2)逼迫模型能够学会将结构已经被破坏了的文章进行重构,使文章变回原来的样子;至于如何破坏文章结构呢?原创 2023-06-27 17:14:04 · 2556 阅读 · 5 评论