作者:Jasmine Wei
HI 大家好我是Jasmine,8年AI产品经理,本系列为近期本人学习及工作沉淀。希望通过简单、直白的梳理,对AI有兴趣/希望转行的同学有所帮助。
本文为此系列引言,主要为各技术点的要点汇总,旨在普及基础技术知识点不含产品观点,对LLM了解的同学可跳过。
什么是大语言模型(LLM)
顾名思义,大语言模型的特点是规模庞大,可能拥有十亿以上的参数。由于研究方向不同,在前两年出现以自然语言理解任务和自然语言生成类任务的两条技术线。
自然语言理解任务
即包括文本分类、句子关系判断等,本质上是分类任务。其技术以Bert为代表。Bert(Bidirectional Encoder Representation from Transfomer)采用双向Transformer Encoder架构。Bert的优点是可以更好地理解上下文信息,缺点是长文本处理不够稳定。
自然语言生成类任务
可给定输入文本,要求对应模型生成一串输出的模型。其技术以GPT为代表。GPT(Generative Pre-trained Transfomer)使用单向Transfomer Decoder结构。GPT的优点是训练过程相对简单,可以生成自然流畅的文本。
从两类任务来看,如果仅用自然语言理解模型,可能无法很好地处理生成任务。但一个LLM 生成模型是可以兼顾两个任务的处理,所以主流更希望推进的应用方向是结合LLM生成模型来做落地。
附图:Transformer介绍
了解Transformer
市场大语言模型有哪些
数据来源:机器之心
在生成式任务方向按照模型结构的不同可以分为两大类
基于[Causal decoder-only](https://www.zhihu.com/search?q=Causal decoder-only&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A3331705933}) (因果解码器)的Transformer结构
如 GPT-4、Claude 2、LLaMA2等大模型
基于Prefix-decoder-only (前缀解码器)的Transformer结构
如Chat GLM-6B(清华大学提出的支持中英双语问答的对话语言模型)
那么两种结构的区别是什么呢?
相同训练的情况下,[Prefix decoder](https://www.zhihu.com/search?q=Prefix decoder&search_source=Entity&hybrid_search_source=Entity&hybrid_search_extra={“sourceType”%3A"answer"%2C"sourceId"%3A3331705933})用到的tokens数量更少,训练效率较低,效果相对较差(训练时Causal decoder结构会在所有Token上计算损失,而Prefix decoder只会在输出上计算损失,不计算输入的损失)
除此维度外,模型基础信息(训练数据、数据量、模型参数量、词表大小等)会成为主要区分维度,如下图:
列名称:模型名称、发布时间、模型大小、是否基于哪个模型、适应性调优(IT指令调优、RLHF用于对齐调优-人类反馈强化学习)、预训练数据规模、近期更新、硬件情况、训练时长、评估(ICL上下文学习、CoT思维链)
(数据来源:机器之心)
大模型有什么样的训练范式
NLP经历四个训练范式:
1) 第一范式:基于传统机器学习模型的范式,特征工程+算法,需要大量训练数据
2) 第二范式:基于深度学习模型的范式,自动获取特征,相对1提高了准确率
3) 第三范式:基于【Pre-train(无监督)+fine-tune(有监督)】的范式,pre-train是基于无标注数据训练;fine-tune阶段经过pre-train的初始化以后,后续的参数用有标注的数据进行训练。小数据集可以训练出好模型。
4) 第四范式(重要,详情请见系列下篇):基于【Pre-train,Prompt,Predict】的范式,应用Zero/Few Shot ,需要少量(无)的任务数据。
大模型大多应用第三、第四范式为主,第三范式目的是预训练模型以更好地应用在下游任务,而用较多的数据训练新的任务,会导致少量样本学习能力差的问题,以及会造成部署资源的极大浪费。
对于第四范式,本质是将所有下游任务统一成预训练任务**,以特定的模板将下游任务的数据转成自然语言形式,挖掘预训练模型的本身能力**,因此可以降低语义差异以及避免过拟合。
大模型评测的标准和方法
- 产品表现:包括语义语法语境理解、内容准确性、生成质量、性能测试、拟人性和多模态能力;
- 语义理解包括上下文理解、逻辑推理、多语言等;
- 内容准确性包括回复内容和结果准确性和陷阱处理;
- 生成质量包括多样性、创造性、专业度等;
- 性能主要包括回复速度、资源消耗等;
- 拟人性主要针对用户情感分析;
\2. 模型基础能力:主要针对算力和数据,包括参数量级、数据量级、数据质量等
\3. 其他:主要针对安全合规,包括安全和隐私处理能力、内容安全性、公平性、隐私保护等
(非原创但找不到来源了,找到会补上)
评估大模型的安全性
LLM Tustworthiness 字节跳动
1.可靠性 :虚假信息、语言模型幻觉、不一致、校准失误、谄媚
2.安全性 :暴力、违法、未成年人伤害、成人内容、心理健康问题、隐私侵犯
3.公平性 :不公正、刻板偏见、偏好偏见、性能差异
5.可解释性和推理 :解释能力不足、逻辑能力不足、 因果能力不足
6.社会规范 :恶毒语言、情感迟钝、文化迟钝
7.稳健性 :提示攻击、范式和分布变化、干预效果、投毒攻击
如何学习大模型 AGI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
👉AGI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉AGI大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉AGI大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓