![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
LLM
文章平均质量分 89
学海一叶
机器学习、深度学习、GIS、遥感
展开
-
大模型语言系列-Agent
自2022年ChatGPT诞生以来,LLM获得了收获了大量关注和研究,但究其根本,技术还是要为应用服务,如何将LLM应用于实际的业务场景成为了诸多工程师思考的问题。从ChatGPT引入强化学习以来,基于LLM的Agent(智能体)概念再次火爆起来,本文旨在对Agent的起源、发展、现状进行一定程度的探究。目前,Agent领域百花齐放,并且已经诞生了很多有有趣、有实际应用的产品,如微软的贾维斯(Microsoft JARVIS,也称为HuggingGPT)、全球首个AI软件工程师-Devin等等。原创 2024-03-15 14:59:29 · 1733 阅读 · 0 评论 -
大语言模型系列-提示工程
前文提到自BERT以来,LLM的训练范式变为预训练-微调,然而由于下游任务的微调仍需要大量数据集,并且并不一定能得到很好的效果,因此自GPT-3以来,学者们开始广泛研究预训练-提示工程范式。原创 2024-03-11 14:57:16 · 1391 阅读 · 0 评论 -
大语言模型系列-中文开源大模型
近期,OpenAI 的主要竞争者 Anthropic 推出了他们的新一代大型语言模型 Claude 3,该系列涵盖了三个不同规模的模型:Opus、Sonnet 和 Haiku。Claude 3声称已经全面超越GPT-4。这里先不提Claude 3的表现,先看一看目前开源的主流中文LLM。原创 2024-03-11 11:01:26 · 816 阅读 · 0 评论 -
大语言模型系列-GPT-3.5(ChatGPT)
语言模型更大并不能从本质上使它们更好地遵循用户的意图,大型语言模型可能生成不真实、有害或对用户毫无帮助的输出。GPT-3.5正是基于此问题进行的改进,它通过对人类反馈进行微调,使语言模型与用户在广泛任务中的意图保持一致,专业术语是对齐(Alignment)。ps:ChatGPT和InstructGPT是一对兄弟模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT-3.5。原创 2024-03-07 16:26:38 · 2609 阅读 · 2 评论 -
大语言模型系列-GPT-3
前文提到GPT-2进一步提升了模型的zero shot能力,但是在一些任务中仍可能会“胡说”,GTP-3基于此提出了few shot,即预测时给出少量精确案例,提升模型的准确性,同时进一步增大模型。当生成文本长度较长时会出现各种问题,比如重复生成一段话,前后矛盾,逻辑衔接不好等等;模型和结构的局限性,对于某一些任务,比如填空类型的文本任务,使用单向的自回归语言模型确实存在一定的局限性,这时候如果同时考虑上文和下文的话,效果很可能会更好一些;原创 2024-03-07 10:47:57 · 1192 阅读 · 0 评论 -
大语言模型系列-GPT-2
前文提到,GPT-1利用不同的模型结构微调初步解决了多任务学习的问题,但是仍然是预训练+微调的形式,GPT-1在未经微调的任务上有一定效果(zero-shot ),但是其泛化能力远远低于经过微调的有监督任务,GPT-2主要基于该点进行了改进。ps:GPT1:发现预训练模型具有 zero-shot 的能力,并且能随着预训练的进行不断增强。为了进一步验证 zero-shot 的能力,OpenAI 在 GPT-1 提出一年后,推出了 GPT-2。原创 2024-03-07 09:24:08 · 1096 阅读 · 0 评论 -
大语言模型系列-微调技术
以BERT模型为代表的“预训练语言模型 + 下游任务微调”训练模式成为了自然语言处理研究和应用的新范式。此处的下游任务微调是基于模型全量参数进行微调(全量微调)。以 GPT3 为代表的预训练语言模型(PLM)参数规模变得越来越大,这使得在消费级硬件上进行全量微调变得不可行。除此之外,模型全量微调还会损失多样性,存在灾难性遗忘的问题。ps:全量finetune它们动辄需要几十至上百G显存训练部署,一般的实验室和个人开发者无力承担。原创 2024-02-26 14:52:35 · 1062 阅读 · 0 评论 -
大语言模型系列-T5
目前已经讲解了目前LLM的三大流派的两个起始模型:GPT-1(Decoder only)、BERT(Encoder only),但是这两个模型针对不同下游不同的NLP任务时还需要进行一定的修改(如添加一些线性层),Google经过庞大的预训练,最终提出了一个通用框架T5模型(Encoder-Decoder), 将所有NLP任务转化为text to text任务,微调时无需再修改模型,直接在原模型上微调即可。ps:T5最核心的理念是:使用前缀任务声明及文本答案生成,统一所有自然语言处理任务的输入和输出。原创 2024-01-24 16:48:15 · 4134 阅读 · 0 评论 -
大语言模型系列-BERT
前文提到的GPT-1开创性的将Transformer Decoder架构引入NLP任务,并明确了预训练(学习 text 表征)+微调这种半监督训练方法,但Transformer Decoder的Masked attention部分,屏蔽了来自未来的信息,因此GPT是单向的模型,只能考虑语境上文,无法考虑语境的下文。因此,BERT转而使用了Transformer Encoder架构,核心其实就是注意力层的区别。原创 2024-01-19 11:00:02 · 1246 阅读 · 0 评论 -
大语言模型系列-GPT-1
前文提到的ELMo基于RNN的网络结构使得其特征提取能力弱,训练难且时间长预训练模型(仅用于特征抽取)和实际下游任务模型仍是分开的、非端到端的GPT-1基于上述缺点进行了改进。提示:以下是本篇文章正文内容,下面内容可供参考GPT-1为我们提供了一个基于 Transformer 的可以微调的预训练网络。但是在把 BiLSTM 换成 Transformer 的过程中,有信息丢失。ELMo 的语言模型是双向的,可以融合上下文信息,但GPT-1只能向前看,即只能利用上文信息、不能利用下文信息。原创 2024-01-18 11:10:05 · 1354 阅读 · 0 评论 -
大语言模型系列-Transformer
前文大语言模型系列-ELMo提到了,RNN的缺陷限制了NLP领域的发展,2017年Transofrmer的横空出世,NLP领域迎来了基于Transformer的预训练模型(LLM)的大爆发。Transformer由谷歌的2017年论文《Attention is All You Need》提出。RNN编码器-解码器结构中,仅将最后一个隐藏状态传递给解码器,会丢失信息RNN难以并行计算提示:以下是本篇文章正文内容,下面内容可供参考。原创 2024-01-18 09:33:55 · 2719 阅读 · 0 评论 -
大语言模型系列-ELMo
在前文大语言模型系列-word2vec为每个词汇表中每个分词静态生成一个对应的词向量表示,没有考虑到语境,因此无法无法处理多义词ps:先训练一个词嵌入模型,生成词向量表示,然后将生成的词向量输入下游任务新的模型中进行具体NLP任务训练,由于下游任务不再需要使用这些词嵌入模型,因此整个过程计算效率方面通常非常低,如Skip-Gram和GloVe。ELMo对上述缺点进行了改进。提示:以下是本篇文章正文内容,下面内容可供参考。原创 2024-01-17 17:14:02 · 1152 阅读 · 0 评论 -
大语言模型系列-word2vec
在前文大语言模型系列-总述创建语料库 => 数据预处理 => 分词向量化 => 特征选择 => 建模(RNN、LSTM等)如果词库过大, one-hot编码生成的向量会造成维度灾难one-hot编码生成的向量是稀疏的,它们之间的距离相等,无法捕捉单词之间的语义关系。one-hot编码是固定的,无法在训练过程中进行调整。因此,出现了词嵌入(word embedding)的概念,通过word embedding模型生成的向量是密集的,具有相似含义的单词在向量空间中距离较近,可以捕捉单词之间的语义关系。原创 2024-01-17 14:43:44 · 1547 阅读 · 0 评论 -
大语言模型系列-总述
研究人员发现,扩展预训练模型(Pre-training Language Model,PLM),例如扩展模型大小或数据大小,通常会提高下游任务的模型性能,模型大小从几十亿(1 B = 10亿)逐步扩展至千亿级别,后续研究者们将大型的PLM称之为LLM(Large Language Model)从下图中可以看出大语言模型的发展阶段从下图中可以看出近年来主流的大语言模型OpenAI发展史。原创 2024-01-15 17:58:45 · 1312 阅读 · 0 评论