LLM的进阶之路

起源

transformer模型,它由级联的encoder和decoder组成。输入一段文本,编码器把它压缩到潜空间,再用解码器翻译成新的文本。

encoder-only    ——BERT派

像善于分析的专家,输入一段文本,可以将文本拆解的头头是道

本质是把高维数据压缩到低维空间

本质是完形填空的模式,给定一个句子,随即掩盖掉一些词,然后让模型预测是什么,训练要同时考虑上下文 ,这就体现了BERT的双向性,比单向的搜索空间更大,因为他需要在整个词汇表中找最合适的词来填充每个空

decoder-only  ——GPT派

会讲故事的专家,能流畅的自说自话

采用的是自回归序列,给定一个序列,模型预测之后可能出现的不同单词,计算概率,选择最大概率输出,不断迭代能输出完整的句子

本质上他学习的是词与词之间的造句关系,搜索空间相对较小,就像一个人在不断自我学习,锻炼讲故事的能力

encoder+decoder ——T5派

GPT派

相比于gpt-2,谷歌的gopher验证了通过扩大模型的规模有效处理复杂任务的可行性,chinchilla验证了增加数据比增加模型参数更有效,llama则通过不到十分之一的参数便实现了堪比gpt系列的性能

大模型训练流程图

参考视频

动画科普LLM大模型进阶之路:为何GPT之外一定要关注LLaMA_哔哩哔哩_bilibili

【手把手带你实战HuggingFace Transformers-实战篇】实战演练之预训练模型_哔哩哔哩_bilibili

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值