LLM 教程 — 大语言模型在问答系统中的运用

了解如何使用大型语言模型在给定上下文或知识库的情况下回答问题。

1、引言

  • 在这一系列学习中,你将掌握以下内容:

  • 大语言模型是什么以及它们如何运作?

  • 大语言模型如何依据特定的上下文或知识库来解答问题?

  • 问答任务有哪些类型,它们又是如何被评价的?

  • 目前有哪些流行的大语言模型可用于问答,你又该如何利用它们?

  • 在使用大语言模型进行问答时会遇到哪些挑战与限制,你又该如何应对?

  • 大语言模型在问答方面有哪些未来的发展方向和机遇?

2、什么是大语言模型?

大语言模型指的是能够学习和生成自然语言的人工神经网络类型。这类模型通过对大量文本数据(如书籍、文章、网页、社交媒体帖子等)进行学习,掌握了词语、句子和段落之间的统计规律和关系。基于这些知识,大语言模型能够生成与特定主题、提示或上下文相关的新文本,这些文本既流畅又连贯。

大语言模型的基础是深度学习技术,深度学习是机器学习的一个分支,它通过多层人工神经元学习数据。大语言模型采用了一种称为 Transformer 的特定架构,它由编码器和解码器两大主要部分组成。编码器将输入文本转换为一系列数值向量,即嵌入,这些嵌入代表了每个词的含义和上下文。随后,解码器通过一种称为注意力机制的技术,逐字生成输出文本,使模型能够关注输入文本和之前输出的最相关部分。

在自然语言处理领域,大语言模型有着广泛的应用,如文本摘要、机器翻译、文本生成、情感分析等。其中,大语言模型在问答任务中的应用尤为突出,它指的是根据特定上下文或知识库来回答自然语言问题。接下来,我们将探讨大语言模型如何执行问答任务,以及这种方法的优势和挑战。

3、大语言模型如何解答问题?

大语言模型有两种主要方式来解答问题:一种是从零开始生成答案,另一种是从特定的上下文或知识库中提取答案。让我们来看看这两种方法是如何工作的,以及它们各自的优缺点。

从零开始生成答案

这种方法让大语言模型能够生成对于自然语言问题的自然语言答案,而不依赖任何外部信息源。模型利用其广泛的知识和语言能力,根据问题和相关主题产生一个合理且连贯的答案。例如,面对问题“美国的总统是谁?”时,模型可以基于其对当前事务和政治的了解,生成答案“乔·拜登”。

这种方法的优点在于它不需要任何特定的上下文或知识库就能回答问题,从而拥有更高的灵活性和普适性。模型理论上可以回答任何主题上的问题,只要有足够的训练数据和处理能力。但缺点是,这种方法可能不够准确或可靠,因为模型可能缺乏正确或最新的信息,或者可能生成与问题不相关或不一致的答案。

从上下文或知识库中提取答案

这种方法让大语言模型能够从提供的上下文或知识库中提取出自然语言问题的答案。模型利用注意力机制定位到包含相关信息的上下文或知识库中,然后输出答案,可能是一段文本或单个词语。例如,面对问题“《哈利·波特》的作者是谁?”以及上下文“《哈利·波特》是由英国作家J.K.罗琳撰写的一系列奇幻小说。”,模型可以通过聚焦于包含答案的上下文部分提取出答案“J.K.罗琳”。

这种方法的优点在于它能提供更准确和可靠的答案,因为模型可以将上下文或知识库作为真实和证据的来源。只要上下文或知识库涵盖了相关主题,模型也能处理更复杂和具体的问题。但缺点是,它需要依赖特定的上下文或知识库来回答问题,这限制了其适用范围。如果缺少合适的上下文或知识库,模型可能无法回答问题,或者提供的答案不完整或错误。

4、问答任务的类型

问答是自然语言处理领域内一个广泛而多样的领域,涵盖了许多不同类型的任务和挑战。在这一节中,我们将介绍一些常见和流行的问答任务类型,并探讨它们之间的区别。

封闭域与开放域问答

我们首先可以区分封闭域和开放域问答。封闭域问答专注于特定领域或主题的问题,如历史、地理、医学等,它依赖的上下文或知识库通常是预定义且限定在特定领域内的。例如,一个专注于历史的封闭域问答系统可能会使用一个包含历史事实和事件的数据库作为其信息源。封闭域问答因其问题和答案范围较窄而通常比开放域问答更易于实现且更准确。

开放域问答则是不限于任何特定领域或主题的问题,可以涵盖任何一般知识或常识。它使用的上下文或知识库不是预定义的,而是可以是任何大型文本语料库,例如整个网络或维基百科。例如,一个开放域问答系统可能依赖一个在多种来源中训练了数十亿词的大型语言模型作为其信息源。开放域问答因其问题和答案范围较广而通常比封闭域问答更具挑战性且准确度较低。

事实性与非事实性问答

我们还可以区分事实性和非事实性问答。事实性问答专注于有具体事实和客观答案的问题,如名称、日期、数字、地点等,答案通常可以用单个词语或短语表达。例如,一个事实性问答系统可能会用“巴黎”来回答“法国的首都是什么?”这样的问题。事实性问答因其答案可以通过客观标准进行验证而通常比非事实性问答更易于实现且更可靠。

非事实性问答则专注于有非具体事实和主观答案的问题,如意见、推荐、摘要、定义等,答案通常可以用句子或段落来表达。例如,一个非事实性问答系统可能会用“根据一些评论家的说法,2023年最好的电影是《沙丘》,这是一部基于弗兰克·赫伯特小说的科幻史诗。”来回答“2023年最好的电影是什么?”这样的问题。非事实性问答因其答案可以因个人偏好和观点而有所不同而通常比事实性问答更具挑战性且准确度较低。

提取式与生成式问答

我们还可以区分提取式和生成式问答。提取式问答是通过从给定的上下文或知识库中提取答案来回答问题的任务,如前文所述。答案通常是已经存在于信息来源中的文本段落或单个词语。例如,一个提取式问答系统可能会从上下文“《哈利·波特》是由英国作家J.K.罗琳撰写的一系列奇幻小说。”中提取出“J.K.罗琳”来回答“《哈利·波特》的作者是谁?”这样的问题。提取式问答因其答案直接得到证据支持而通常比生成式问答更准确且一致。

生成式问答则是通过从头开始生成答案来回答问题的任务,如前文所述。答案通常是新文本,不在信息来源中存在,而是由系统基于其知识和技能创造的。例如,一个生成式问答系统可能会生成“《哈利·波特》是一个年轻巫师的故事,他发现了自己的魔法血统,并就读于霍格沃茨魔法与巫术学校,在那里他结交了朋友和敌人,并面对黑暗魔王伏地魔。”这样的答案来回答“《哈利·波特》的情节是什么?”这样的问题。生成式问答因其答案可以根据问题和主题进行定制而通常比提取式问答更灵活且具有创造性。

这些就是大语言模型可以执行的一些主要问答任务类型。在下一节中,我们将探讨如何评估大语言模型在问答方面的性能和质量。

5、问答的评估指标

问答领域的一个挑战是如何衡量执行此任务的系统和模型的性能和质量。存在许多不同的评估指标可以用来评价系统和模型生成或提取的答案的准确性、一致性、相关性和流畅性。在这一节中,我们将介绍一些常用且广受欢迎的问答评估指标及其运作方式。

完全匹配(EM)

完全匹配(EM)是一种简单且严格的评估指标,用来衡量答案与标准答案完全一致的比例。标准答案通常由人类注释员或专家提供,他们已经验证了答案的正确性和完整性。答案会逐字进行比较,任何拼写、标点或大小写的差异都会导致不匹配。例如,如果标准答案是“巴黎”,而系统给出的答案是“paris”,则EM得分为0。如果系统给出的答案是“巴黎”,则EM得分为1。EM通常用于事实性问答任务,其中答案通常是单个单词或短语。

EM的主要优点是它易于计算和解释,因为它仅需要对系统答案和标准答案进行二元比较。EM的主要缺点是它过于严格,对自然语言的变化和细微差异不敏感,即使这些差异不影响答案的含义或正确性,也会因系统答案中的任何微小差异或错误而受到惩罚。

F1 Score

F1得分是一个更灵活和健壮的评估指标,用来衡量系统答案的精确度和召回率的调和平均值。精确度是系统答案中也在标准答案中的单词数量与系统答案中总单词数量的比率。召回率是系统答案中也在标准答案中的单词数量与标准答案中总单词数量的比率。F1得分是精确度和召回率的调和平均值,给予两者相等的权重。例如,如果标准答案是“巴黎,法国”,而系统给出的答案是“巴黎”,则精确度为1,召回率为0.5,F1得分为0.67。F1得分通常用于提取式问答任务,其中答案通常是来自给定上下文的文本段落。

F1 Score的主要优点是它对自然语言的变化和细微差异更加宽容和敏感,因为它考虑了系统答案和标准答案之间的部分匹配和重叠。F1得分的主要缺点是它更复杂,难以计算和解释,因为它需要对两个依赖于答案长度和内容的度量进行加权平均。

BLEU Score

BLEU Score是一种流行的评估指标,用来衡量系统答案和一个或多个参考答案之间的相似度,采用修改后的n-gram精确度形式。N-gram是指n个单词的序列,例如一元组(一个单词)、二元组(两个单词)、三元组(三个单词)等。N-gram精确度是系统答案中也在参考答案中的n-gram数量与系统答案中总n-gram数量的比率。BLEU得分是不同n值的n-gram精确度的几何平均值,乘以一个简洁惩罚,以惩罚过短的系统答案。例如,如果参考答案是“巴黎是法国的首都”,而系统给出的答案是“巴黎首都法国”,则一元组精确度为1,二元组精确度为0.5,三元组精确度为0,简洁惩罚为0.82。BLEU得分为0.61。BLEU Score通常用于生成式问答任务,其中答案通常是新文本,不在信息来源中存在。

BLEU Score的主要优点是它被广泛使用并作为自然语言生成的标准评估指标,因为它能够捕捉系统答案和参考答案之间的词汇和句法相似性。BLEU得分的主要缺点是它并不适用于问答任务,因为它没有考虑到答案对问题的语义和语用相关性,并且可能倾向于奖励那些过于字面或过于泛化的系统答案。

这些是大语言模型用于问答性能和质量评估的一些主要指标。在接下来的部分,我们将介绍一些流行的大语言模型,并探讨它们在问答中的应用。

6、流行的大语言模型用于问答

我们将探讨几种流行的大语言模型并了解它们如何应用于问答任务。我们将重点关注三个模型:BERT、GPT-3和T5。

BERT

BERT(双向编码器表示转换器)是一种大型语言模型,它在大量文本语料库(如维基百科和BookCorpus)上进行预训练,采用两种任务:遮蔽语言模型和下一句预测。这使BERT能够理解单词的左右两侧上下文,提高了模型的能力和多样性。

BERT可以针对不同的下游任务进行微调,例如问答,通过在预训练模型的基础上增加特定任务的层并在标注的数据集上进行训练。例如,BERT可以在SQuAD数据集上进行微调,这是一个基于维基百科文章的问答数据集。BERT通过预测上下文段落中答案跨度的开始和结束位置,来执行提取式问答。BERT在SQuAD和其他问答数据集上取得了先进的结果。

GPT-3

GPT-3(生成预训练转换器3)是另一种大型语言模型,它在庞大的文本语料库(如Common Crawl、WebText2、Books1、Books2和维基百科)上进行预训练,采用自回归语言模型任务。这使GPT-3能够从单词的左侧上下文中学习,提高了模型的效率和可扩展性。

GPT-3可以通过所谓的“提示”技术,不需微调即可执行多种下游任务,如问答。通过提供包含任务描述、问题和可选示例或提示的自然语言输入,GPT-3能够生成包含答案的自然语言输出。GPT-3在多种问答任务上展示了令人印象深刻的结果。

T5

T5(文本到文本转换器)是基于大量文本语料库(如Common Crawl)进行预训练的大型语言模型,采用去噪自编码任务。这使T5能够从单词的左右两侧上下文中学习,提高了模型的灵活性和鲁棒性。

T5可以通过将问题转换为文本到文本问题来执行各种下游任务,如问答,其中输入和输出都是自然语言文本。T5在多种问答任务上达到了最先进的结果。

这些模型展示了大语言模型在问答方面的强大能力和多样化应用。在下一节中,我们将探讨使用大语言模型进行问答时面临的挑战和限制,以及如何克服这些挑战。

7、大语言模型用于问答的挑战和限制

尽管大语言模型在问答方面表现出色,但在应用这些模型时仍然存在一些挑战和限制。在这一节中,我们将讨论这些挑战和限制以及可能的解决方案。

数据质量和数量

大语言模型的效能很大程度上取决于它们训练和用于回答问题的数据质量和数量。然而,并非所有的数据都是有用或可靠的。一些数据来源可能包含噪声、错误、偏见、不一致或过时的信息,这可能影响模型的性能和答案的质量。例如,如果大语言模型基于包含事实错误或误导性信息的文本语料进行训练,它可能为某些问题生成不正确或不相关的答案。同样,如果大语言模型使用的上下文或知识库不完整或不准确,它可能无法回答某些问题或提供部分或错误的答案。

解决这一挑战的一个方法是确保大语言模型使用的训练数据和回答问题的数据质量高且数量充足。这可以通过使用经过专家或可信机构策划、验证和更新的数据来源来实现,例如学术期刊、官方网站或知名数据库。另一种方法是使用数据增强技术,如改写、遮蔽或添加噪声,来增加数据和模型的多样性和鲁棒性。这有助于模型学习不同的表达方式,并处理各种类型的问题和答案。

模型复杂性和可扩展性

大语言模型的另一个挑战是它们的复杂性和可扩展性。这些模型通常包含数百万甚至数十亿个参数,需要大量的计算资源和时间来训练和运行。此外,问答任务本身也很复杂且多样化,要求模型能够处理不同类型的问题、答案、上下文和知识库。例如,如果一个大语言模型在涵盖广泛主题和领域的大型文本语料上进行训练,它可能需要回答非常具体或非常一般、非常简单或非常困难、非常事实性或非常主观性的问题。这要求模型在其知识和技能的广度和深度之间找到平衡。

解决这一挑战的一个方法是优化大语言模型的架构和参数,以便用于问答。这可以通过使用技术如修剪、量化、蒸馏或压缩来完成,这些技术可以在不牺牲性能和质量的前提下减少模型的大小和复杂性。另一种方法是将大语言模型根据特定的问答任务和领域进行适应。这可以通过使用技术如微调、提示或迁移学习来实现,这些技术可以将模型定制到特定的问答任务和领域,并提高其准确性和效率。

模型可解释性和可解释性

大语言模型用于问答的第三个挑战是它们的可解释性和可解释性。大语言模型通常被视为“黑盒”,这意味着很难理解它们是如何工作的以及为什么会产生特定的输出。同时,问答任务通常被视为高风险的,这意味着答案可能对用户和社会产生重大的后果和影响。例如,如果大语言模型为与健康、教育、法律或政策相关的问题生成或提取答案,它可能影响用户和利益相关者的决策和行动。因此,模型需要提供可信赖和可验证的透明和负责任的答案。

解决这一挑战的一个方法是增强大语言模型用于问答的可解释性和可解释性。这可以通过使用技术如注意力机制、可视化或归因来完成,这些技术可以揭示模型和答案的内部工作原理和推理过程。另一种方法是为大语言模型生成或提取的答案提供额外的信息和证据。这可以通过使用技术如引用、论证或验证来实现,这些技术可以用来源、论点或证据支持答案。

这些是大语言模型在问答方面面临的一些主要挑战和限制以及如何克服这些挑战的方法。在下一节中,我们将探讨大语言模型在问答方面的一些未来发展方向和机遇。

8、未来方向和机遇

大语言模型在问答方面已经取得了显著的进步和成就,但它们在未来仍有很大的潜力和改进空间。在这一节中,我们将探讨大语言模型在问答方面的一些未来发展方向和机遇,以及它们如何使用户和社会受益。

多模态问答

大语言模型在问答方面的一个未来发展方向是将它们的能力扩展到多模态问答,这是处理涉及多种模态(如文本、图像、音频、视频等)的问题的任务。例如,一个多模态问答系统可能通过分析图像和文本来回答“这张图片中的狗品种是什么?”这样的问题,并给出答案“拉布拉多寻回犬”。多模态问答可以使大语言模型处理更复杂和真实的问题,这些问题需要整合和解释不同类型的信息和数据。多模态问答还可以提供更丰富和多样化的答案,包括视觉、听觉或交互元素。

会话式问答

大语言模型在问答方面的另一个未来发展方向是增强它们与用户进行自然和引人入胜对话的能力。例如,一个会话式问答系统可能用答案“乔·拜登”来回答“美国总统是谁?”这样的问题,然后跟进一个问题“你对他有何看法?”或评论“他是美国历史上最年长的总统”。会话式问答可以使大语言模型与用户保持长时间和连贯的对话,并根据用户的偏好、情感和反馈调整它们的答案和响应。会话式问答还可以提供更个性化和互动的答案,促进用户和系统之间更好的关系和信任。

可解释问答

大语言模型在问答方面的第三个未来发展方向是提高它们为问答生成或提取的答案的可解释性和透明性。例如,一个可解释问答系统可能用答案“天空之所以是蓝色的,是因为阳光被大气中的分子散射”来回答“为什么天空是蓝色的?”这样的问题,并提供一个支持答案的科学文章或图表的链接。可解释问答可以使大语言模型增加它们提供的答案的问责性和可信度,并帮助用户理解和验证答案。可解释问答还可以提供更具信息性和教育性的答案,增强用户的知识和好奇心。

这些是大语言模型在问答方面的一些未来发展方向和机遇,以及它们如何使用户和社会受益。在最后一节中,我们将总结这个教程,并提供一些进一步学习的资源和参考。

9、结论

在这个教程中,你已经学习到了:

  • 大语言模型是什么,它们如何运作?

  • 大语言模型如何根据特定的上下文或知识库回答问题?

  • 问答任务有哪些类型,它们又如何被评估?

  • 一些流行的大语言模型用于问答的情况以及如何使用它们?

  • 大语言模型用于问答的挑战和限制是什么,以及如何克服这些挑战?

  • 大语言模型在问答方面的未来方向和机会是什么?

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值