大模型学习笔记总结
1. 大语言模型的演化历程
大语言模型的发展有点像是人类学习语言的过程,逐步从简单到复杂,最后变得越来越聪明。
-
统计语言模型(SLM):最早的语言模型其实挺“笨”的,它只是靠数词频和简单的统计规律来预测下一个词。这种方法类似于我们小孩学话时,只记住简单的“猫”和“狗”,但并不能真正理解句子的意思。
-
神经语言模型(NLM):随着神经网络的引入,模型开始“长大”,学会了理解上下文,比如词与词之间的关系。这就像我们开始能用句子表达复杂的想法,而不是只会单词。
-
预训练语言模型(PLM):预训练模型让模型进入了“中学”阶段,它们通过大量阅读来积累知识,然后在考试前做一些特定的训练来提高应试能力。像BERT、GPT这样的模型就是这么“考高分”的。
-
大语言模型(LLM):到了这个阶段,模型“上大学”了,经过大量训练后,不仅能处理常见的任务,还能理解更复杂的问题。GPT-3等模型甚至能写文章、编故事,就像一个多才多艺的大学生。
2. 大模型的构建过程
要让模型变得“聪明”,需要经历几个关键的训练步骤,类似于我们从基础教育到专业训练的过程。
-
预训练(Pretraining):这个阶段就像模型的“基础教育”,它要通过大量的阅读(训练数据)来学习语言的基本规则。这一步非常重要,因为它决定了模型能掌握多少知识。就像一个孩子小时候读的书越多,知识面就越广。
-
有监督微调(SFT):预训练后,模型已经具备了“常识”,但要真正用起来,还需要一些专业训练。这个过程有点像高考前的冲刺班,针对特定任务进行强化训练,让模型能够更好地解决实际问题。
-
基于人类反馈的强化学习对齐(RLHF):光会考试还不够,模型还需要“懂人心”。通过人类的反馈,它能逐步调整自己的行为,变得更贴近我们的需求。这就像一个优秀的服务员,不仅能迅速理解客户的要求,还能根据反馈不断改进自己的服务。
3. 开源与闭源大模型
世界上能够打造大模型的机构并不多,而它们对待模型的方式也不同。有的愿意分享,有的则更喜欢“藏着掖着”。
-
开源大模型:有些公司和组织,比如Meta AI和浪潮信息,选择把他们的模型开放出来,供大家使用。这种做法有点像图书馆,你可以自由借阅这些模型,学到不少新东西。这种共享精神推动了整个行业的发展,给大家提供了很多宝贵的资源。
-
闭源大模型:另一些公司则认为,模型是他们的“商业秘密”,只能通过API等方式提供给用户使用,而不会公开模型的细节。这样的做法帮助企业在市场上保持竞争力,同时也确保了用户得到的是稳定可靠的服务。OpenAI和百度就是这类公司的典型代表。
4. 源大模型开源体系
浪潮信息在开源大模型领域做得非常不错,他们发布的“源”系列模型展现了强大的能力,特别是在中文处理和逻辑推理方面,表现得非常优秀。通过全面开源,浪潮信息为全球的开发者提供了非常强大的工具,就像是给大家发了一本非常有用的教科书,不仅内容丰富,而且随时可以参考。
比如,他们的源2.0模型,不仅有大量的参数,还提出了“局部注意力过滤增强机制”这样的创新方法,大大提升了模型的精度。可以说,这些模型的开源,极大地推动了整个AI领域的发展,为大家提供了很多学习和实践的机会。