AI大模型多轮对话的五个挑战与应对方法

前言

在AI大模型领域,多轮对话是一个难点,主要包括五种挑战。

挑战一,上下文理解:随着对话轮次的增加,模型需要处理的上下文信息越来越多,这可能导致信息遗忘或混淆。此外,模型的上下文窗口大小有限,可能无法容纳整个对话历史。

挑战二,对话状态跟踪:在多轮对话中,用户的意图和话题可能会随着对话的进行而发生变化。模型需要跟踪对话的状态,包括用户的意图、当前的话题、已提供的信息等

挑战三,推理与规划:在多轮对话中,模型可能需要结合先前的对话内容、常识知识和外部信息进行推理。此外,模型还需要规划对话的流程,以确保对话能够顺利进行。

挑战四,对话生成一致性:在多轮对话中,模型可能会面临多种情况和语境。为了保持对话的一致性,模型需要仔细选择合适的回应,确保对话生成在内容、风格和语气上的一致性。

挑战五,对抗性问题:用户可能会提出一些具有挑战性或误导性的问题,试图测试模型的能力或寻找其弱点。模型需要具备一定的鲁棒性和应对策略,以应对这些对抗性问题。

在这篇文章中,风叔将介绍这五种挑战的应对方式。

1. 增加上下文理解

提升大模型的上下文理解能力,是实现多轮对话的基础,大模型需要召回并理解此前的对话信息,才能结合用户当前的输入,给出最适合的应答。提升大模型的上下文理解能力主要有以下几种方式:

1. 获取全量历史对话

第一种方式是获取全量历史对话信息,也是最直接的方式,比如在客服聊天机器人场景中,如果用户在对话中先是询问了账单问题,接着又谈到了网络连接问题,LangChain中的ConversationBufferMemory类可以用来记住整个与用户的对话历史,可以帮助 AI 在回答网络问题时还记得账单问题的相关细节,从而提供更连贯的服务。

from langchain.memory import ConversationBufferMemory``memory = ConversationBufferMemory()``memory.save_context({"input": "你好,请查询一下昨天的账单"}, {"output": "已为您查到账单,账单编号为12345"})``   ``variables = memory.load_memory_variables({})

2. 滑动窗口获取最近部分对话内容

第二种方式是只获取最近相关的对话内容,比如在一个电商平台上,如果用户询问关于特定产品的问题,然后又问到了配送方式,LangChain中的ConversationBufferWindowMemory类可以帮助 AI 只专注于最近的一两个问题,而不是整个对话历史,以提供更快速和专注的答复。

from langchain.memory import ConversationBufferWindowMemory``   ``# 只保留最后5次互动的记忆``memory = ConversationBufferWindowMemory(k=5)

3. 获取历史对话中实体信息

第三种方式是抽取出历史对话中的实体信息,比如在法律咨询的场景中,客户可能会提到特定的案件名称、相关法律条款或个人信息。LangChain中的ConversationEntityMemory可以帮助 AI 记住这些关键实体和实体关系细节,从而在整个对话过程中提供更准确、更个性化的法律建议。

llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)``memory = ConversationEntityMemory(llm=llm)``_input = {"input": "公众号《风叔云》的作者是风叔"}``memory.load_memory_variables(_input)

对于一些准确度要求非常高的场景,也可以使用知识图谱抽取历史实体信息。比如在医疗咨询中,一个病人可能会描述多个症状和过去的医疗历史,ConversationKGMemory 可以构建一个包含病人症状、疾病历史和可能的健康关联的知识图谱,从而帮助 AI 提供更全面和深入的医疗建议。

   ``from langchain.memory import ConversationKGMemory``from langchain.llms import OpenAI``llm = OpenAI(temperature=0)``memory = ConversationKGMemory(llm=llm)``   

4. 对历史对话进行阶段性总结摘要

第四种方法是对历史对话进行阶段性总结,比如在教育辅导对话中,学生可能会提出不同的数学问题或理解难题,ConversationSummaryMemory 可以帮助 AI 总结之前的辅导内容和学生的疑问点,以便在随后的辅导中提供更针对性的解释和练习

2. 跟踪对话状态

提升对话状态跟踪主要是为了使AI Agent能够准确地理解和把握对话的进展,从而做出合适的回应,比如引导用户提问、引导用户给出更多信息等等。

对话状态跟踪的核心在于识别和更新对话的关键信息,这些信息通常包括用户的意图、当前的话题、已提供的信息、槽位值(slot values)等。对话状态跟踪可以通过以下几种方式实现:

基于规则的对话状态跟踪:使用预定义的规则来识别和更新对话状态,比较依赖于专家知识,适用于领域特定的对话系统。

基于统计的对话状态跟踪:使用统计模型(如隐马尔可夫模型、条件随机场等)来学习对话状态的转移概率,并根据这些概率来更新对话状态。

基于深度学习的对话状态跟踪:使用深度学习模型(如循环神经网络、Transformer等)来自动学习对话状态的表示和更新策略。这种方法可以处理更复杂的对话场景,但需要大量的训练数据。

我们以基于深度学习的对话状态跟踪为例,包括以下关键步骤:

  • 数据准备:收集和标注对话数据集,包括对话历史、用户意图、槽位值等信息。对数据进行预处理,如分词、去除停用词、标准化等。

  • 特征提取:将对话历史转换为模型可处理的特征向量,可以使用词嵌入(word embeddings)或其他文本表示方法来提取特征。

  • 模型训练:选择一个合适的深度学习模型,如循环神经网络(RNN)或Transformer;定义损失函数,如交叉熵损失(cross-entropy loss),用于衡量模型预测的对话状态与真实状态之间的差异;使用训练数据集对模型进行训练,通过反向传播算法优化模型参数。

  • 对话状态跟踪:在实际对话过程中,将用户的输入和先前的对话历史输入到训练好的模型中。模型根据输入的特征向量预测当前的对话状态,包括用户意图、槽位值等。

  • 对话管理:根据预测的对话状态,使用对话管理模块来决定下一步的行动,如提问、提供信息或执行动作等。将AI Agent的回应和新的对话历史输入到模型中,继续进行下一轮的对话状态跟踪。

  • 模型评估与优化:使用验证数据集评估模型的性能,如准确率、召回率、F1分数等。根据评估结果对模型进行优化,如调整模型结构、超参数或训练策略等。

通过以上流程,可以有效地提升对话状态跟踪的准确性和效率,使AI Agent能够更好地理解和应对多轮对话中的各种场景。

3. 推理与规划

关于大模型的推理与规划,风叔此前也有过专题介绍

从最经典的ReAct模式出发,有两条发展路线,一条重规划,一条重反思。

在重规划的模式下,ReAct模式加上规划器就成为REWOO,再加上重规划器就成为Plan & Execute,再叠加计划并行执行能力就成为LLM Compiler。

在重反思模式下,ReAct模式加上左右互搏框架就成为Basic Reflecion,边推理边执行则演变为Self-Discover,加入强化学习则演变为Reflexion,最后的LATS是推理和规划的集大成者,LATS = Tree search + ReAct + Plan&Execute + Reflexion。

4. 实现对话一致性

一致性问题主要涉及到对话内容、风格和语气的一致性,保证对话生成的一致性是多轮对话系统中的重要挑战。

对话生成的一致性同样可以通过三种方式来实现:

基于规则的生成:使用预定义的规则和模板来生成对话,确保生成的对话符合特定的风格和语气。这种方法适用于领域特定的对话系统,但灵活性较差。

基于统计的生成:使用统计语言模型(如n-gram模型、隐马尔可夫模型等)来生成对话。这些模型可以根据先前的对话内容预测下一个词的概率分布,从而生成连贯的对话。

基于深度学习的生成:使用深度学习算法,学习对话的复杂模式和上下文依赖关系,从而生成更自然和一致的对话。

我们仍然以深度学习为例,和对话状态追踪的流程相似:

  • 数据准备:收集和标注对话数据集,确保数据集中包含一致的对话风格和语气。对数据进行预处理等。

  • 特征提取:将对话历史转换为模型可处理的特征向量,可以使用词嵌入(word embeddings)或其他文本表示方法来提取特征。

  • 模型训练:和对话状态追踪相似,但需要定义不同的损失函数,比如风格一致性损失、话题一致性损失。可以使用对抗性训练方法来提高模型的一致性。通过引入一个风格判别器,使生成器生成的对话难以被风格判别器识别,从而提高生成对话的风格一致性。

  • 对话生成:在实际对话过程中,将用户的输入和先前的对话历史输入到训练好的模型中,模型根据输入的特征向量生成当前的对话回应。

通过以上流程,可以有效地保证对话生成的一致性,使AI Agent能够生成自然、连贯且符合特定风格和语气的对话。

5. 对抗性问题防御

对抗性问题是指一些涉及政治、隐私、灰色等不友好的问题,比如“如何下载盗版游戏”、“如何盗取他人账号密码”等等,防御对抗性问题也是大模型必须要克服的难点。

对抗性问题的主要防御策略包括:

对抗性训练(Adversarial Training):即在模型训练的过程中就引入对抗性样本,使模型能够学习识别和处理这些恶意输入。

多模型集成(Ensemble Methods):采用多个模型的集成方法,提高对抗性攻击的鲁棒性。

隐私保护技术(Privacy-preserving Techniques):使用差分隐私等技术,减少模型对特定输入的敏感性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值