nlp
文章平均质量分 90
远方的旅行者
随心记录
展开
-
transformer原理-Attention Is All You Need
还是惯例来感慨一下,transforemr是google公司在2017年7月发表的【Attention Is All You Need】这篇文章中被提出来的。而在大模型得到了蓬勃发展的今天,不管是哪一类大模型(视频、图像、文本),基本上模型的基础架构都是采用了transformer或者是transformer的变体。这一定程度上奠定了transformer的铁王座地位。原创 2024-04-30 10:33:53 · 1195 阅读 · 0 评论 -
生成式大语言模型论文导读
当下,最火的人工智能无疑就是生成式大模型,包括纯大语言模型和多模态模型,所以本次也抱着学习的态度,以大模型发展的时间线来对主要节点的一些生成式语言模型的论文进行分享(论文和分享内容会动态更新)。原创 2024-03-31 10:55:38 · 773 阅读 · 0 评论 -
GPT-2原理-Language Models are Unsupervised Multitask Learners
因为GPT-2是GPT-1的延续,所以接下来我介绍的内容都是假设你看过或者了解过GPT-1。在更大的模型上进行效果验证;在更大的数据集上进行模型训练和验证;改进了输入的有损编码情况其实本质上GPT-2就是对GPT-1的缺点进行改进、对优点进行放大、为之前的实验结果找到一个自洽的解释。所以这篇论文的介绍本身也不会太多。原创 2024-03-31 01:31:43 · 1036 阅读 · 0 评论 -
GPT-1原理-Improving Language Understanding by Generative Pre-Training
首先想感慨一波这是当下最流行的大模型的的开篇之作,由OpenAI提出。虽然【预训练+微调】的训练范式最初不是由GPT-1提出,但是基于transformer的【预训练+微调】是由GPT-1提出,这也是现在大模型所用的范式。这篇论文出自18年,比google公司出的bert要早几个月,你去看bert的论文之后发现,其实bert的思路有大部分是来自GPT-1的。细品一下,虽然当时这篇论文平平无奇,但是历史见证它的后劲很强大。下面会一一的记录一下我看了这篇论文后的理解。原创 2024-03-28 17:54:01 · 1704 阅读 · 3 评论 -
BERT原理-Pre-training of Deep Bidirectional Transformers for Language Understanding
上图就是bert利用了transforemr的编码器结构,从最底层的结构可以看出,E2为原始的单词输入,最中输出的的E2对应的embedding向量T2其实已经综合考虑了上下文信息,因为在神经网络(编码器)内部,信息是交叉,而且特别的是,这个编码器结构恰好实现了和ELMo一样的效果,既能看到单词左边的信息,也能看到单词右边的信息,这就是自注意力的好处。官方虽然没说,但是官方的图展示了,句子的结尾其实也是加的[SEP],至此所有的规则就讲完了,我先甩个图,然后把设计的所有点总结一下。原创 2024-03-14 17:34:00 · 1082 阅读 · 0 评论