AI时代大模型搜索引擎的16个局限性!

基于LLM的生成式搜索引擎(Generative Search Engines)正在取代传统搜索引擎。答案引擎不仅检索与用户查询相关的来源,还综合引用这些来源的答案摘要。与21名参与者进行了一项研究:评估答案引擎与传统搜索引擎的交互,识别出了16个答案引擎的局限性,提出了16个答案引擎设计建议,并与8个指标相关联。在三个流行的引擎(You.com、Perplexity.ai、BingChat)上实施了自动化评估,量化了常见的局限性(例如,频繁的幻觉、不准确的引用)和独特的特征(例如,答案信心的变化)。

答案引擎的设计流程和用于审计这些系统的研究框架。展示了答案引擎的关键组成部分,包括它如何根据用户查询生成答案,重点关注输出,如来源、答案文本和引用。在右侧,展示了进行的可用性研究的发现摘要,以及You Chat、Bing Copilot和Perplexity的最终评分卡评估。

16个答案引擎的局限性

总结了研究中发现的关于答案引擎的关键局限性,并将这些局限性归类为四个主题:答案文本(Answer Text)、引用(Citation)、来源(Sources)和用户界面(User Interface)

按答案引擎组件主题组织的研究发现摘要,以及明确识别并表达对每个组件担忧的参与者数量。

答案文本 (Answer Text)

  1. 需要客观细节 (A.I):所有参与者(21/21)都表示生成的答案缺乏详细性和上下文深度。

  2. 缺乏全面观点 (A.II):19名参与者表示答案引擎在处理有偏见的问题时未能展示多元观点。

  3. 自信语言呈现声明 (A.III):16名参与者指出答案引擎在呈现声明时使用过于自信的语言。

  4. 过于简化的写作形式 (A.IV):14名参与者认为答案引擎使用的语言过于简单,缺乏创造性和批判性思维。

[A] Perplexity的输出比较,它通过仅提供一个片面回应来反映问题中固有的偏见,以及**[B] YouChat**,它承认多种观点,避免呈现不完整的信息。

引用 (Citation)

  1. 错误归属和误解来源 (C.I):21名参与者都提到答案引擎在引用时存在错误归属或误解来源的问题。

  2. 基于假设上下文挑选信息 (C.II):19名参与者注意到答案引擎根据假设的上下文选择性地展示信息。

  3. 声明和信息生成缺少引用 (C.III):18名参与者表示答案引擎在生成关键声明或信息时缺少必要的引用。

  4. 模型回应中源选择的透明度缺乏 (C.IV):15名参与者对答案引擎在选择和优先考虑引用来源时的透明度表示担忧。

[A] Perplexity的输出比较,它缺乏对生成点的引用,导致对每个句子的实际来源产生混淆,以及[B] Copilot,它有效地指示了每个陈述的来源。

来源 (Sources)

  1. 低频使用的来源 (S.I):19名参与者指出答案引擎用于总结的来源数量低。

  2. 检索的来源多于用于生成实际答案的来源 (S.II):13名参与者提到答案引擎检索的来源多于实际用于生成答案的来源。

  3. 来源类型缺乏信任 (S.III):12名参与者对答案引擎使用的来源类型表示不信任。

  4. 来源引用和内容重复 (S.IV):12名参与者发现答案引擎检索的多个来源包含相同或高度相似的内容。

由Perplexity生成的结果[A]和相应的检索来源[B]。该图示说明了模型检索了8个来源,其中许多是同一来源的重复。尽管如此,模型以不同的方式引用它们,创造了内容多样化的假象,而实际上却是相同的。

用户界面 (User Interface)

  1. 缺乏选择和过滤来源的能力 (U.I):17名参与者表示答案引擎的用户界面缺乏选择和过滤来源的能力。

  2. 生成和源选择中缺乏人工输入 (U.II):17名参与者认为答案引擎在生成和源选择中缺乏人工输入。

  3. 验证和信任答案需要额外工作 (U.III):14名参与者觉得答案引擎使得验证和信任答案需要额外的工作。

  4. 引用格式非标准化交互 (U.IV):12名参与者对答案引擎的引用格式表示不满,认为它不是一个标准化的交互方式。

16个答案引擎设计建议

概述了针对答案引擎的16个设计建议,并将这些建议与研究发现和相应的8个量化指标相联系。

每个设计建议的总结,以及它们所针对的系统弱点和相应的量化指标

16个答案引擎设计建议的详细解释:

答案文本 (Answer Text) 设计建议

  1. 提供平衡的答案 (S-I):对于可能具有引导性或偏见的问题,答案引擎应提供中立和平衡的答案,不假设或加强用户的偏见。

  2. 提供客观细节以支持声明 (S-II):答案应包含支持其声明的客观细节,如数据和统计信息。

  3. 最小化无关信息 (S-III):答案应避免包含无关的“填充”内容,确保每个句子都与问题直接相关。

  4. 反映来源的全面性 (S-IV):答案引擎应透明地展示其选择和使用来源的理由,增强用户的信任。

引用 (Citation) 设计建议

  1. 避免无支持的引用 (C-I):每个声明都应有适当的引用支持,否则应移除或明确其相关性。

  2. 双重检查引用错误 (C-II):答案引擎应评估引用的外部一致性,减少错误归属或脱离上下文的引用。

  3. 引用所有相关的来源 (C-III):对于需要多个参考点支持的声明,应引用所有相关来源。

  4. 检索的来源必须等于使用的来源 (C-IV):确保列出的来源数量与实际用于构建答案的来源数量相匹配。

来源 (Sources) 设计建议

  1. 明确关注专家来源 (S-I):答案引擎应识别并优先考虑权威来源,尤其是在它们提供明确答案时。

  2. 仅检索和使用必要的来源 (S-II):模型应更选择性地检索来源,确保仅使用那些对于构建精确和上下文适宜的回答所必需的来源。

  3. 区分来源基础与模型生成内容 (S-III):系统应区分基于来源的内容和模型生成的内容,增强透明度和用户信任。

  4. 明确提及并意识到来源类型 (S-IV):答案引擎应智能评估和优先考虑来源类型,确保使用最可信和相关的来源。

用户界面 (User Interface) 设计建议

  1. 纳入人类对来源和文本的反馈 (U-I):允许用户对搜索结果和生成内容提供反馈,提高回答的准确性和相关性。

  2. 实施交互式引用 (U-II):开发交互式引用功能,如悬停弹出窗口,以提高用户对信息来源的理解和验证。

  3. 采用段落级本地引用 (U-III):明确指示引用的确切信息和来源,提高透明度。

  4. 在信息不足时避免强制回答 (U-IV):面对无法回答或信息不足的问题时,答案引擎应避免生成误导性或无关的回答。

答案引擎响应处理到答案引擎评估框架(AEE)的8个指标的说明图

8个量化指标

  • 一边倒答案 (One-Sided Answer)

  • 过度自信的答案 (Overconfident Answer)

  • 相关声明 (Relevant Statements)

  • 未引用的声明 (Unsupported Statements)

  • 引用准确性 (Citation Accuracy)

  • 引用彻底性 (Citation Thoroughness)

  • 来源必要性 (Source Necessity)

  • 未引用的来源 (Uncited Sources)

三个流行的引擎量化评比

对三个公共答案引擎(You.com、BingChat 和 Perplexity)基于自动化评估的量化结果。这些评估使用了之前开发的八个指标,这些指标构成了答案引擎评估(AEE)框架。以下是对量化评估结果的总结:

基于AEE基准的八个指标,对三个答案引擎——You.com、BingChat和Perplexity——进行定量评估:指标报告,用▲表示可接受,●表示边缘,▼表示有问题的性能。a图显示了答案置信度的分布。

  1. 基本统计:
  • 每个答案引擎返回的答案中平均引用的来源数量和陈述数量不同。

  • Perplexity 返回的答案中引用的来源最多,但每个陈述的引用次数较少。

  1. 答案文本指标:
  • 一边倒答案:所有答案引擎都频繁(50-80%)生成一边倒的答案,倾向于与辩论问题的提法保持一致,而不是呈现多个视角,其中 Perplexity 表现最差。

  • 过度自信的答案:Perplexity 在辩论问题上表现出最高比例的过度自信答案。

  • 相关声明:所有引擎在答案中包含的相关声明比例相似,大约在75-82%之间。

  1. 来源指标:
  • 未引用的来源:You.com 在确保所有列出的来源都被引用方面表现最好,而 BingChat 有较大比例的来源未被引用。

  • 不支持的声明:所有模型生成的答案中都有相当比例的声明未被列出的来源支持。

  • 来源必要性:所有答案引擎在只列出必要的来源以支持答案中的声明方面表现不佳。

  1. 引用指标:
  • 引用准确性:所有答案引擎在准确引用支持声明的来源方面都存在困难。

  • 引用彻底性:三个引擎都没有充分引用所有可能的准确引用。

  1. 答案引擎评估得分卡:
  • 没有一个答案引擎在大多数指标上表现良好,表明答案引擎在处理幻觉、不支持的声明和引用准确性等关键方面有很大的改进空间。

  • You.com 在处理语言信心和呈现来源方面表现略好。

  • Perplexity 由于在生成过度自信的答案和引用准确性方面表现不佳,整体表现最差。

  • BingChat 的整体表现介于两者之间,尽管它倾向于列出更多的来源,但这并没有总是转化为更广泛的信息覆盖。

  1. 信心得分分布:
  • Perplexity 在所有查询类型中都倾向于使用最自信的语言。

  • BingChat 和 You.Com 在辩论问题上使用的信心语言较少,表明在有争议的主题上表达不确定性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值