ISTOCK
来源:IEEE电气电子工程师学会
人类总是会犯错。我们所有人每天在新任务和日常任务中都会犯错。其中一些可能是小错误,而有一些则是灾难性的。错误会破坏我们与朋友之间的信任,会让老板失去对我们的信心,有时还会成为生死攸关的差别。
数千年来,我们创建了安全体系来应对人类常犯的各类错误。如今,赌场会定期轮换发牌员,因为如果他们长时间做同一项工作就会出错。医院工作人员在手术前会在肢体上做标记,这样医生就会在正确的身体部位进行手术,而且他们会清点手术器械以确保没有器械遗留在体内。从文字校对到复式记账再到上诉法院,我们人类已经非常擅长纠正人类的错误了。
人类现在正在迅速将一种完全不同类型的犯错者融入社会:人工智能。像大型语言模型(LLMs)这样的技术能够执行许多传统上由人类完成的认知任务,但它们也会犯很多错误。当聊天机器人告诉你吃石头或者在披萨上加胶水时,这看起来很荒谬。但将人工智能系统的错误与人类错误区分开来的并非其错误的频率或严重程度,而是其怪异之处。人工智能系统犯错的方式与人类不同。
我们使用人工智能所带来的许多摩擦和风险都源于这种差异(https://spectrum.ieee.org/tag/security)。我们需要创造新的安全系统来适应这些差异并防止人工智能错误带来危害。
人类错误vs人工智能错误
生活经验让我们每个人都能相当容易地猜到人类会在何时何地犯错。人类的错误往往出现在某人知识的边缘:我们大多数人在解微积分问题时都会出错。我们预计人类的错误是集中出现的:一个微积分错误很可能伴随着其他错误。我们预计错误会有起有伏,可预见地取决于疲劳和分心等因素。而且错误往往伴随着无知:一个在微积分上犯错的人也很可能会对与微积分相关的问题回答“我不知道”。
就人工智能系统犯这些类人类错误的程度而言,我们可以运用我们所有的纠错系统来处理它们的输出。但当前这批人工智能模型——特别是大型语言模型(LLMs)——犯错的方式有所不同。
人工智能的错误似乎是随机出现的,不会集中在特定的话题上。大型语言模型(LLM)的错误往往在知识领域中分布得更为均匀。一个模型在微积分问题上出错的可能性,可能与它提出卷心菜吃山羊这种说法的可能性一样大。
而且人工智能的错误并不伴随着无知。一个大型语言模型在说出完全错误(而且对人类来说显然是错误)的话时,会和说出正确的话时一样自信。大型语言模型这种看似随机的不一致性,使得人们很难相信它们在复杂的多步骤问题中的推理。如果你想要使用一个人工智能模型来解决商业问题,仅仅看到它理解哪些因素能使产品盈利是不够的;你需要确保它不会忘记货币是什么。
如何应对人工智能错误
这种情况表明了两个可能的研究领域。第一个是设计出会犯更类人错误的大型语言模型(LLMs)。第二个是构建新的纠错系统,以处理大型语言模型往往会犯的特定类型的错误。
我们已经有了一些工具来引导大型语言模型以更类人的方式行事。其中许多工具源于“对齐”研究领域,该领域旨在使模型按照人类开发者的目标和动机行事(https://arxiv.org/abs/2406.18346)。一个例子是可以说是让ChatGPT取得突破性成功的技术:人类反馈强化学习(https://arxiv.org/abs/2203.02155)。在这种方法中,人工智能模型(比喻性地)会因生成得到人类评估者点赞的回复而得到奖励。类似的方法可用于诱导人工智能系统犯更类人的错误,特别是通过对那些较难理解的错误给予更多惩罚。
在捕捉人工智能错误方面,我们用于预防人类错误的一些系统会有所帮助。在一定程度上,迫使大型语言模型(LLMs)对自己的工作进行复核有助于防止错误。但是,大型语言模型也会为自己脱离理性的行为编造看似合理但实则荒谬的解释。
其他针对人工智能的错误缓解系统与我们用于人类的系统完全不同。因为机器不会像人类那样疲劳或沮丧,所以以稍有不同的方式反复向大型语言模型(LLM)提问,然后综合其多个回答是有帮助的。人类不会忍受那种恼人的重复,但机器会(https://arxiv.org/abs/2210.02441)。
理解相似点与不同点
研究人员仍在努力弄清楚大型语言模型(LLM)的错误在哪些方面与人类的错误不同。人工智能的某些怪异之处实际上比乍看起来更像人类。对大型语言模型的查询稍作改变就可能导致截然不同的回应,这一问题被称为提示敏感性。但是,任何调查研究人员都会告诉你,人类也是如此。民意调查中的问题措辞会对答案产生巨大影响(https://psycnet.apa.org/record/1992-97329-001)。
大型语言模型(LLMs)似乎也偏向于重复其训练数据中最常见的词汇;例如,即使被问及更具异域风情的地点时,也会猜测像“美国”这样熟悉的地名。也许这是人类的“可得性启发法”在大型语言模型中的体现,机器会说出最先想到的东西,而不是通过问题进行推理(https://arxiv.org/pdf/2305.04400)。而且,也许像人类一样,一些大型语言模型在处理长篇文档时似乎会分心;它们更能记住开头和结尾的事实。在改进这种错误模式方面已经有了进展,因为研究人员发现,经过更多从长篇文本中检索信息的示例训练的大型语言模型,在统一检索信息方面似乎表现得更好(https://www.anthropic.com/news/claude-2-1-prompting)。
在某些情况下,大型语言模型(LLMs)的怪异之处在于它们比我们认为的更像人类。例如,一些研究人员测试了这样一个假设:当给予现金奖励或受到死亡威胁时,大型语言模型会表现得更好。结果还表明,一些对大型语言模型进行“越狱”(让它们违背创建者的明确指令,https://www.usenix.org/system/files/sec24fall-prepub-1500-yu-zhiyuan.pdf)的最佳方法看起来很像人类彼此使用的那种社会工程学诡计:例如,假装成别人或者说这个请求只是个玩笑。但其他有效的“越狱”技术是人类永远不会上当的。一个研究小组发现,如果他们使用ASCII艺术(由看起来像文字或图片的符号构成)来提出危险问题,比如如何制造炸弹,大型语言模型就会乐意回答。
人类可能偶尔会犯看似随机、不可理解且前后矛盾的错误,但这种情况很少见,而且往往预示着更严重的问题。我们通常也不会让有这些行为表现的人处于决策岗位。同样,我们应该将人工智能决策系统限制在适合其实际能力的应用场景中——同时牢牢记住其错误可能产生的潜在影响。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
Deepmind:AI 加速科学创新发现的黄金时代报告
Continental 大陆集团:2024 未来出行趋势调研报告
埃森哲:未来生活趋势 2025
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
哈尔滨工业大学:2024 具身大模型关键技术与应用报告
爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
欧洲议会:2024 欧盟人工智能伦理指南:背景和实施
通往人工超智能的道路:超级对齐的全面综述
清华大学:理解世界还是预测未来?世界模型综合综述
Transformer 发明人最新论文:利用基础模型自动搜索人工生命
兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告
麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现
兰德公司:新兴技术领域的全球态势综述
前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)
罗戈研究:2024 决策智能:值得关注的决策革命研究报告
美国航空航天专家委员会:2024 十字路口的 NASA 研究报告
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
GenAI 引领全球科技变革关注 AI 应用的持续探索
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
多模态可解释人工智能综述:过去、现在与未来
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
《机器智能体的混合认知模型》最新 128 页
Open AI 管理 AI 智能体的实践
未来生命研究院 FLI2024 年 AI 安全指数报告 英文版
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版
Linux 基金会 2024 去中心化与人工智能报告 英文版
脑机接口报告脑机接口机器人中的人机交换
联合国贸发会议 2024 年全球科技创新合作促发展研究报告 英文版
Linux 基金会 2024 年世界开源大会报告塑造人工智能安全和数字公共产品合作的未来 英文版
Gartner2025 年重要战略技术趋势报告 英文版
Fastdata 极数 2024 全球人工智能简史
中电科:低空航行系统白皮书,拥抱低空经济
迈向科学发现的生成式人工智能研究报告:进展、机遇与挑战
哈佛博士论文:构建深度学习的理论基础:实证研究方法
Science 论文:面对 “镜像生物” 的风险
镜面细菌技术报告:可行性和风险
Neurocomputing 不受限制地超越人类智能的人工智能可能性
166 页 - 麦肯锡:中国与世界 - 理解变化中的经济联系(完整版)
未来生命研究所:《2024 人工智能安全指数报告》
德勤:2025 技术趋势报告 空间计算、人工智能、IT 升级。
2024 世界智能产业大脑演化趋势报告(12 月上)公开版
联邦学习中的成员推断攻击与防御:综述
兰德公司 2024 人工智能和机器学习在太空领域感知中的应用 - 基于两项人工智能案例英文版
Wavestone2024 年法国工业 4.0 晴雨表市场趋势与经验反馈 英文版
Salesforce2024 年制造业趋势报告 - 来自全球 800 多位行业决策者对运营和数字化转型的洞察 英文版
MicrosoftAzure2024 推动应用创新的九大 AI 趋势报告
DeepMind:Gemini,一个高性能多模态模型家族分析报告
模仿、探索和自我提升:慢思维推理系统的复现报告
自我发现:大型语言模型自我组成推理结构
2025 年 101 项将 (或不会) 塑造未来的技术趋势白皮书
《自然杂志》2024 年 10 大科学人物推荐报告
量子位智库:2024 年度 AI 十大趋势报告
华为:鸿蒙 2030 愿景白皮书(更新版)
电子行业专题报告:2025 年万物 AI 面临的十大待解难题 - 241209
中国信通院《人工智能发展报告(2024 年)》
美国安全与新兴技术中心:《追踪美国人工智能并购案》报告
Nature 研究报告:AI 革命的数据正在枯竭,研究人员该怎么办?
NeurIPS 2024 论文:智能体不够聪明怎么办?让它像学徒一样持续学习
LangChain 人工智能代理(AI agent)现状报告
普华永道:2024 半导体行业状况报告发展趋势与驱动因素
觅途咨询:2024 全球人形机器人企业画像与能力评估报告
美国化学会 (ACS):2024 年纳米材料领域新兴趋势与研发进展报告
GWEC:2024 年全球风能报告英文版
Chainalysis:2024 年加密货币地理报告加密货币采用的区域趋势分析
2024 光刻机产业竞争格局国产替代空间及产业链相关公司分析报告
世界经济论坛:智能时代,各国对未来制造业和供应链的准备程度
兰德:《保护人工智能模型权重:防止盗窃和滥用前沿模型》-128 页报告
经合组织 成年人是否具备在不断变化的世界中生存所需的技能 199 页报告
医学应用中的可解释人工智能:综述
复旦最新《智能体模拟社会》综述
《全球导航卫星系统(GNSS)软件定义无线电:历史、当前发展和标准化工作》最新综述
《基础研究,致命影响:军事人工智能研究资助》报告
欧洲科学的未来 - 100 亿地平线研究计划
Nature:欧盟正在形成一项科学大型计划
Nature 欧洲科学的未来
欧盟科学 —— 下一个 1000 亿欧元
欧盟向世界呼吁 加入我们价值 1000 亿欧元的研究计划
DARPA 主动社会工程防御计划(ASED)《防止删除信息和捕捉有害行为者(PIRANHA)》技术报告
兰德《人工智能和机器学习用于太空域感知》72 页报告
构建通用机器人生成范式:基础设施、扩展性与策略学习(CMU 博士论文)
世界贸易组织 2024 智能贸易报告 AI 和贸易活动如何双向塑造 英文版
人工智能行业应用建设发展参考架构
波士顿咨询 2024 年欧洲天使投资状况报告 英文版
2024 美国制造业计划战略规划
【新书】大规模语言模型的隐私与安全
人工智能行业海外市场寻找 2025 爆款 AI 应用 - 241204
美国环保署 EPA2024 年版汽车趋势报告英文版
经济学人智库 EIU2025 年行业展望报告 6 大行业的挑战机遇与发展趋势 英文版
华为 2024 迈向智能世界系列工业网络全连接研究报告
华为迈向智能世界白皮书 2024 - 计算
华为迈向智能世界白皮书 2024 - 全光网络
华为迈向智能世界白皮书 2024 - 数据通信
华为迈向智能世界白皮书 2024 - 无线网络
安全牛 AI 时代深度伪造和合成媒体的安全威胁与对策 2024 版
2024 人形机器人在工业领域发展机遇行业壁垒及国产替代空间分析报告
《2024 年 AI 现状分析报告》2-1-3 页.zip
万物智能演化理论,智能科学基础理论的新探索 - newv2
世界经济论坛 智能时代的食物和水系统研究报告
生成式 AI 时代的深伪媒体生成与检测:综述与展望
科尔尼 2024 年全球人工智能评估 AIA 报告追求更高层次的成熟度规模化和影响力英文版
计算机行业专题报告 AI 操作系统时代已至 - 241201
Nature 人工智能距离人类水平智能有多近?
Nature 开放的人工智能系统实际上是封闭的
斯坦福《统计学与信息论》讲义,668 页 pdf
国家信息中心华为城市一张网 2.0 研究报告 2024 年
国际清算银行 2024 生成式 AI 的崛起对美国劳动力市场的影响分析报告 渗透度替代效应及对不平等状况英文版
大模型如何判决?从生成到判决:大型语言模型作为裁判的机遇与挑战
毕马威 2024 年全球半导体行业展望报告
MR 行业专题报告 AIMR 空间计算定义新一代超级个人终端 - 241119
DeepMind 36 页 AI4Science 报告:全球实验室被「AI 科学家」指数级接管
《人工智能和机器学习对网络安全的影响》最新 273 页
2024 量子计算与人工智能无声的革命报告
未来今日研究所:2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成:十年回顾
《以人为中心的大型语言模型(LLM)研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告 英文版
理解世界还是预测未来?世界模型的综合综述
GoogleCloudCSA2024AI 与安全状况调研报告 英文版
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学 、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
上下滑动查看更多