大型语言模型(LLMs)是如何工作的?

大型语言模型(LLMs)如ChatGPT、Bing的“Sydney”模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时,本文将探讨这些模型的工作原理,包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方法。

机器学习101LLMs是一种机器学习模型,就像许多其他模型一样。要理解它们的工作原理,让我们从了解一般的机器学习基础知识开始。

注意:有许多优秀的在线视觉资源可以更详细地解释机器学习,可能比我能解释得更好——我建议查看它们!然而,我将在这里介绍基本概念。

掌握基本的ML模型的最简单方法是考虑预测:基于我已经知道的,在一个新情况下会发生什么?这类似于你的大脑如何工作。

想象你有一个总是迟到的朋友。你正在计划一个聚会,所以你预计他还会迟到。虽然不确定,但根据他的记录,你认为有很大的可能性。如果他准时到达,你会感到惊讶,并且你会记住这一点;也许下次你会调整对他的迟到的期望。

你的大脑中有许多这样的模型不断工作,但目前我们还不完全了解它们在内部是如何实际工作的。在现实世界中,我们不得不使用算法来应对——有些简单,有些非常复杂——它们从数据中学习并预测新情况下可能会发生的事情。通常,模型被训练来做特定的事情(如预测股票价格或创建图像),但它们正变得越来越多功能化。

机器学习模型有点像API:它接收输入,你教它产生特定的输出。以下是这个过程:

  1. 收集训练数据:收集关于你想要建模的数据的一堆信息。

  2. 分析训练数据:查看数据以找到模式和细节。

  3. 选择模型:选择一个算法(或几个)来理解数据及其工作原理。

  4. 训练:运行算法,它学习并存储它所推断出的内容。

  5. 推理:将新数据呈现给模型,它将给出它的想法。

根据模型需要完成的具体任务,你创建模型的接口,决定它接收什么信息以及返回什么信息。

你可能会问,这个算法是做什么的?嗯,可以把它想象成一个超级聪明的分析师。它可以发现你提供的数据中的关联关系,这些关联关系通常是你自己很难发现的。数据通常包含一些X元素——比如特征、设置、细节——以及一些Y元素——实际发生的事情。如果你正在查看这些数据:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你不需要机器学习来告诉你当X为15时,Y约为150,000。但是如果有30个不同的X因素呢?或者数据看起来很怪异?或者是文本?机器学习就是解决我们人类技能不足的棘手情况。就是这样。

这就是为什么ML算法可以像线性回归(如统计1)一样简单,也可以像具有数百万节点的神经网络一样复杂。最近新闻中的超级先进模型非常复杂,需要很多人和多年的研究。但在许多公司中,数据科学家使用简单的算法仍然可以获得良好的结果。

从零开始构建强大的ML模型是一个非常专业化的领域。一些数据科学家和机器学习工程师使用PyTorch和Tensorflow等工具创建模型,而其他人则增强现有的开源模型。您还可以选择将整个模型开发过程外包,并使用别人创建的现成模型。

创建模型就像是一个试错的过程。除非你的数据非常直接,否则你可能需要测试不同的方法并在你的模型开始有意义之前进行不断的调整。它融合了科学、数学、艺术和一些随机性。

语言模型和生成文本当你的数据有时间元素时——比如预测未来股票价格或理解即将到来的选举——模型的作用就很明显了。它使用过去来预测未来。然而,许多机器学习模型,如语言模型,根本不处理时间序列数据。

语言模型只是处理文本数据的机器学习模型。你可以在所谓的“语料库”(或仅仅是文本)上训练它们,然后你可以将它们用于各种任务,例如:

1、回答

2、问题搜索

3、摘要

4、转录语言模型的概念已经存在一段时间了,但最近深度学习和神经网络的兴起是一个重大事件;我们将讨论这两者。

概率语言模型简单来说,概率语言模型就像单词或词组的概率图。在英语中,它检查一段文本并分析哪些单词出现,何时出现,出现的频率以及它们出现的次序等等。所有这些信息都是通过统计捕获的。

现在,让我们快速制作自己的语言模型。

以下是两个可能或不一定表达我真实想法的句子:

“最好的曼哈顿鸡尾酒配方使用两盎司Van Brunt帝国黑麦威士忌,一盎司Cocchi Di Torino甜苦艾酒,一撮安格斯图拉苦味酒和一撮橙子苦味酒。我在调酒杯中搅拌大约60次,倒入一个冷却的Nick and Nora杯中,并用一颗樱桃装饰。”

要制作一个简单的概率语言模型,我们将收集n-grams,这是一组词的高级统计术语。让我们将n设置为1,这意味着我们只会计算单词出现的频率。

如果n设置为2:

模型所做的是生成一堆n-grams,关注哪些单词一起出现以及它们的顺序。

😰 不要担心细节 😰

我通过n-gram练习只是为了说明许多模型正在做的事情并不是那么复杂(尽管对某些人来说是这样的)。因此,如果您没有理解上述所有细节,请不要感到压力。

😰 不要担心细节 😰

一旦您存储了这些信息,就可以预测接下来可能出现的单词。如果我们要从两个鸡尾酒句子中创建一个新的句子,我们会以一种类似于之前的方式将单词组合在一起。

神经网络和语言模型概率语言模型已经存在了几十年。然而,最近使用神经网络(一种更复杂的算法)进行语言建模变得越来越流行。这些网络使用称为嵌入的东西以更有意义的方式学习发生了什么。对于模型来说,直接从单词中学习是很困难的,但更容易从这些单词的数学表示中学习。

嵌入是一种方法,可以将具有大量维度的数据(如包含大量离散单词和组合的大型文本)以较少的数据进行数学表示,同时不会丢失太多细节。对于一个机器学习模型来说,处理关于制作鸡尾酒的100个不同1500字的博客文章的文本(总共有15万个单词!)是一项艰巨的任务。但是,如果我们能够将这些信息转化为一系列数字,那么我们就走对了路。

配备了更易于使用的单词和文本表示形式后,神经网络可以学习有关文本的重要信息,例如:

单词之间的语义关系引入更多上下文(单词或句子前后的句子)确定哪些单词重要,哪些不重要这些东西变得相当复杂。但是目标很简单:一个足够强大的模型,在预测下一个单词、句子或段落时可以考虑很多上下文,就像我们的大脑一样。

大型语言模型现在ChatGPT及其同类本质上是大规模语言模型(这就是为什么它们被称为这样)。它们建立在过去十年的层层进展之上,包括:

Word2Vec模型LSTM(长短时记忆)模型RNN(循环神经网络)Transformers(是的)(也称为“基础模型”)您不必真正了解每个模型是什么。关键是要认识到这些大型语言模型并不是某种突然的科学突破。研究人员多年来一直在稳步迈向今天的现实,并且每一项新的发展都对达到这一点起到了至关重要的作用。当LSTM在2019年获得关注时(尽管该概念在90年代就引入了),有一个大的炒作周期,而所有这些也是如此。研究有点奇怪!

ChatGPT和LLMs创建整段文本的方式是通过反复进行单词猜测游戏。

以下是概述:

  1. 您给模型一个提示(这是“预测”短语)。

  2. 它根据提示预测一个单词。

  3. 它根据第一个单词预测第二个单词。

  4. 它根据前两个单词预测第三个单词。

当您将其分解时,这很简单。但是事实证明,当您的模型在互联网的所有文本上进行训练时,单词猜测游戏可以非常强大。数据科学家经常说关于ML模型:“垃圾输入意味着垃圾输出”,意思是您的模型只与用于训练它们的数据一样好。通过与微软合作,OpenAI能够使用大量的计算资源来收集这些数据并在强大的服务器上训练这些模型。

以整个书面互联网为上下文,LLMs可以生成很少偏离“正常”的句子,与旧模型不同。如果短语“我在玻璃杯周围用曼哈顿冰镇鸡尾酒安格斯图拉”在网页上不存在,那么该模型可能不会生成它。而这个简单的事实是这些模型如此出色的一个主要原因。

这引出了一个重要的问题:这些大型语言模型真的理解它们提供的答案吗?弄清楚这个问题涉及到数学、哲学和语义学(“理解”到底是什么意思?)的混合。

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文转自 https://blog.csdn.net/2401_85378759/article/details/141057363?spm=1001.2014.3001.5501,如有侵权,请联系删除。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值