摘要
人工智能越来越多地融入我们生活的方方面面。这种整合正在教育、金融和医疗保健等领域发生,这些领域的关键决策往往基于算法洞察。这一趋势有望带来许多好处,但也带来了潜在的风险。因此,在过去的一年里,人们一直非常关注人工智能系统的负责任开发和部署。人工智能社区也越来越关注评估人工智能系统的影响,并减轻受影响者的风险。本章通过检查四个关键的负责任人工智能领域的指标,研究和基准来探索负责任人工智能的主要趋势:隐私和数据治理,透明度和可解释性,安全性和安全性以及公平性。鉴于预计到2024年全球将有40亿人投票,本章还专门介绍了人工智能和选举,并更广泛地探讨了人工智能对政治进程的潜在影响。
Chapter Highlights
- LLM责任的强大和标准化的评估严重缺乏。人工智能指数的新研究显示,负责任的人工智能报告严重缺乏标准化。包括OpenAI、Google和Anthropic在内的领先开发人员主要针对不同的负责任AI基准测试他们的模型。这种做法使系统地比较顶级AI模型的风险和局限性的工作变得复杂。
- 政治deepfake很容易生成,很难检测。政治deepfake已经影响了世界各地的选举,最近的研究表明,现有的AI deepfake检测方法的准确性各不相同。此外,像CounterCloud这样的新项目展示了人工智能如何轻松地创建和传播虚假内容。
- 研究人员在LLM中发现了更复杂的漏洞。在此之前,红队AI模型的大部分工作都集中在测试对人类有意义的对抗性提示上。今年,研究人员发现了让LLM表现出有害行为的不太明显的策略,比如要求模型无限重复随机单词。
- 人工智能带来的风险是地球仪企业关注的问题。一项关于负责任人工智能的全球调查显示,公司最关心的人工智能相关问题包括隐私、安全和可靠性。调查显示,各组织已开始采取措施减轻这些风险。然而,在全球范围内,大多数公司到目前为止只减轻了这些风险的一部分。
- LLM可以输出受版权保护的材料。多位研究人员已经表明,流行的LLM的生成输出可能包含受版权保护的材料,例如纽约时报的摘录或电影场景。这样的输出是否构成侵犯版权正在成为一个核心的法律的问题。
- 人工智能开发人员在透明度方面得分较低,这对研究产生了影响。新推出的基础模型透明度指数显示,人工智能开发人员缺乏透明度,特别是在披露训练数据和方法方面。这种开放性的缺乏阻碍了进一步了解人工智能系统的健壮性和安全性的努力。
- 极端的AI风险很难分析。在过去的一年里,人工智能学者和从业者之间出现了一场关于关注直接模型风险(如算法歧视)与潜在长期生存威胁的实质性辩论。区分哪些主张是有科学依据的,应该为决策提供信息,这已成为一项挑战。与生存威胁的理论性质相比,已经存在的短期风险的有形性质使这一困难更加复杂。
- AI事件的数量继续上升。根据追踪与滥用人工智能有关的事件的人工智能事件数据库,2023年报告了123起事件,比2022年增加了32.3%。自2013年以来,人工智能事件增长了20多倍。一个值得注意的例子包括人工智能生成的,在网上广泛分享的泰勒·斯威夫特的性露骨的深度伪造。
- ChatGPT有政治偏见。研究人员发现,ChatGPT对美国民主党和英国工党有明显的偏见。这一发现引发了人们对该工具可能影响用户政治观点的担忧,特别是在全球重大选举的一年。
文章目录
3.1 Assessing Responsible AI
本章首先概述了负责任人工智能(RAI)的主要趋势。在本节中,AI指数定义了负责任AI的关键术语:隐私,数据治理,透明度,可解释性,公平性以及安全性。接下来,本节将探讨与人工智能相关的事件,并探讨行业参与者如何感知人工智能风险并采取人工智能风险缓解措施。最后,本节介绍了与AI模型整体可信度相关的指标,并对缺乏标准化的负责任AI基准报告进行了评论。
Responsible AI Definitions
在本章中,人工智能指数探讨了负责任人工智能的四个关键维度:隐私和数据治理,透明度和可解释性,安全性和安全性以及公平性。负责任的人工智能的其他方面,如可持续性和可靠性,将在报告的其他地方讨论。图3.1.1给出了本章所讨论的负责任的人工智能维度的定义,沿着了一个说明性的例子,说明这些维度在实际中是如何相关的。“示例”专栏考察了一个假设的平台,该平台采用人工智能来分析医疗患者数据,以提供个性化的治疗建议,并演示了如何解决隐私、透明度等问题,可能是相关的。
负责任的AI维度、定义和示例
负责任的AI维度 | 定义 | 示例 |
---|---|---|
数据治理 | 建立政策、程序和标准,以确保数据的质量、安全性和合乎道德的使用,这对于准确、公平和负责任的AI操作至关重要,特别是对于敏感或可识别个人身份的信息。 | 已制定政策和程序以维护数据质量和安全性,特别关注合乎道德的使用和同意,特别是对于敏感的健康信息。 |
可解释性 | 理解和阐述AI决策背后的理由的能力,强调AI不仅透明,而且对用户和利益相关者可理解的重要性。 | 该平台可以阐述其治疗建议背后的理由,使这些见解对医生和患者都可理解,从而确保对其决策的信任。 |
公平性 | 创建公平的算法,避免偏见或歧视,并考虑所有利益相关者的多样化需求和情况,从而与更广泛的社会公平标准保持一致。 | 该平台设计旨在避免治疗建议中的偏见,确保来自所有人口群体的患者都能获得公平的护理。 |
隐私 | 个人对保密性、匿名性和个人数据保护的权利,包括同意和被告知数据使用情况的权利,以及组织在处理个人数据时保护这些权利的责任。 | 患者数据受到严格保密,确保匿名性和保护。患者同意其数据是否以及如何用于训练治疗建议系统。 |
安全性和安全性 | AI系统对威胁的完整性,最小化误用带来的危害,并解决固有的安全风险,如可靠性问题和高级AI系统的潜在危险。 | 实施措施以防范网络威胁,确保系统的可靠性,最小化误用或固有系统错误带来的风险,从而保护患者健康和数据。 |
透明度 | 开放共享开发选择,包括数据来源和算法决策,以及AI系统如何部署、监控和管理,涵盖创建和运营阶段。 | 开发选择,包括数据来源和算法设计决策,都公开共享。系统如何部署和监控对医疗保健提供者和监管机构是透明的。 |
AI Incidents
人工智能事件数据库(AIID)跟踪人工智能的道德滥用实例,例如自动汽车导致行人死亡或面部识别系统导致错误逮捕。2如图3.1.2所示,人工智能事件的数量每年继续攀升。2023年报告了123起事故,较2022年增加32. 3%。自2013年以来,人工智能事件增长了20多倍。报告事件的持续增加可能是由于人工智能更好地融入现实世界的应用,以及人们对其潜在的道德滥用的认识提高。然而,必须指出,随着认识的提高,事件跟踪和报告也有所改善,这表明早期的事件可能被低估了。
Examples
下一节详细介绍了最近的人工智能事件,以揭示与人工智能相关的道德挑战。
人工智能生成的Taylor Swift裸体照片
2024年1月,人工智能生成的色情图片据称描绘了泰勒·斯威夫特(Taylor Swift)在X(以前的Twitter)上出现。这些图像持续了17个小时,在被删除之前积累了超过4500万次浏览。生成式AI模型可以毫不费力地从训练数据(通常包括裸体图像和名人照片)中推断出名人的裸体图像,即使原始数据集中没有目标名人的图像。有一些过滤器旨在防止此类内容的创建;然而,这些过滤器通常可以相对容易地绕过。
完全自动驾驶汽车的不安全行为
最近有报道称,一辆处于全自动驾驶模式的特斯拉在旧金山弗朗西斯科的人行横道上检测到一名行人,但未能减速并让行人安全地过马路(图3.1.3)。与其他(部分)自动驾驶系统的开发人员不同,他们将软件的使用限制在特定的环境中,如高速公路,特斯拉允许在普通街道上使用他们的测试版软件。这起事件是汽车在完全自动驾驶模式下不安全驾驶行为的几起涉嫌案件之一。2022年11月,一辆特斯拉汽车在突然刹车后发生8车相撞事故。另一起涉及特斯拉的撞车事故正在调查中,可能是全自动驾驶模式造成的第一起死亡事故。
浪漫AI聊天机器人的隐私问题
浪漫的人工智能聊天机器人应该像爱人或朋友一样,倾听,并成为用户的伴侣(图3.1.4)。在这个过程中,他们最终收集了大量的私人和敏感信息。Mozilla基金会的研究人员对11个浪漫的人工智能聊天机器人进行了隐私风险评估,发现这些聊天机器人收集了过多的个人数据,很容易被滥用,并且提供的数据保护措施不足。例如,研究人员发现Crushon.AI的隐私政策指出,它“可能会收集您的广泛个人信息,甚至与健康相关的信息,例如您的’性健康信息’,‘处方药的使用’和’[g] ender-affirming护理信息’。研究人员进一步讨论了与浪漫的人工智能聊天机器人相关的隐私问题,并强调了这些服务尽管被宣传为移情伴侣,但它们的操作和数据处理并不透明。
Risk Perception
今年,斯坦福大学的一个研究团队与埃森哲合作,对来自1,000多家组织的受访者进行了一项全球调查,以评估负责任人工智能的全球状况。这些组织的总收入至少为5亿美元,来自20个国家和19个行业,并在2月份做出了回应-2024.3全球负责任人工智能状况调查旨在了解采用负责任人工智能实践所面临的挑战,并在10个维度和调查行业中对负责任人工智能活动进行比较。地区受访者被问及,鉴于其人工智能采用策略,哪些风险与他们相关;即:这取决于他们开发、部署或使用的是生成式还是非生成式人工智能。研究人员向他们展示了一份包含14种风险的清单,并根据他们的人工智能采用策略,选择了所有适用的风险。4研究人员发现,隐私和数据治理风险,未经所有者同意使用数据或数据泄露,是地球仪范围内的主要问题。值得注意的是,他们观察到,与北美相比,亚洲和欧洲的这些担忧要高得多。仅20%的北美受访者选择了公平风险,显著低于亚洲(31%)和欧洲(34%)(图3.1.5)。亚洲受访者平均选择的相关风险最多(4.99),而拉丁美洲受访者平均选择的相关风险最少(3.64)。
Risk Mitigation
全球负责任的人工智能调查发现,大多数地区的组织已经开始实施负责任的人工智能措施。各地区的大多数组织都已充分实施了至少一项风险缓解措施,这些措施与他们报告的风险相关,因为他们采用了人工智能(图3.1.6)。欧洲(18%)、北美(17%)和亚洲(25%)的一些公司已经实施了研究人员在以下方面提出的一半以上的措施:公平性、透明度和可解释性、隐私和数据治理、可靠性和安全性。
Overall Trustworthiness
如上所述,负责任的人工智能包括各个方面,包括公平和隐私。真正负责任的人工智能模型需要在所有这些方面都表现出色。为了促进对广泛模型“责任”或可信度的评估,一组研究人员引入了DecodingTrust,这是一个新的基准,可以在广泛的负责任AI指标上评估LLM,如刻板印象和偏见,对抗鲁棒性,隐私和机器伦理等。模型会得到一个可信度分数,分数越高表示模型越可靠。该研究强调了GPT类型模型的新漏洞,特别是它们倾向于产生有偏见的输出,并从训练数据集和对话历史中泄露私人信息。尽管GPT-4在标准基准测试上比GPT-3.5有所改进,但GPT-4仍然更容易受到越狱策略的误导。这种增加的脆弱性部分是由于GPT-4在遵循指令方面的保真度提高。Hugging Face现在拥有LLM安全排行榜,该排行榜基于DecodingTrust中引入的框架。截至2024年初,Anthropic的Claude 2.0被评为最安全的车型(图3.1.7)。
Benchmarking Responsible AI
追踪值得注意的负责任AI基准
基准测试在跟踪最先进的人工智能模型的能力方面担当着重要角色。“近年来,评估模型的方式发生了转变,不仅要评估其更广泛的能力,还要评估与责任相关的特征。这一变化反映了AI重要性的不断提升,以及对AI问责性的日益增长的需求。随着人工智能变得越来越普遍,人们对责任的要求也越来越高,了解研究人员优先考虑哪些基准变得越来越重要。图3.1.8显示了一系列受欢迎的负责任人工智能基准的逐年引用情况。2021年推出的TruthfulQA评估了LLM在回答中的真实性。RealToxicityPrompts和ToxiGen跟踪语言模型产生的有害输出的程度。此外,BOLD和BBQ评价了LLM代中存在的偏倚。引文虽然不能完全反映基准的使用情况,但可以作为跟踪基准显著性的代理。实际上,图3.1.8中追踪的所有基准测试在2023年的引用次数都比2022年多,这反映了它们在负责任的人工智能领域的重要性越来越大。《真实问答》的引用量增长尤其迅猛。
报告一致性
基准的有效性在很大程度上取决于其标准化应用。当模型根据一组特定的基准进行一致的评估时,比较模型的能力变得更加简单。然而,在不同的基准上测试模型会使比较变得复杂,因为各个基准具有独特和独特的性质。因此,标准化基准测试在提高人工智能能力透明度方面发挥着重要的作用。然而,来自AI指数的新分析表明,缺乏负责任的AI能力评估的标准化基准报告。AI指数调查了一系列领先的AI模型开发商,特别是OpenAI、Meta、Anthropic、Google和Mistral AI。该指数确定了每个开发商的一个旗舰型号(GPT-4、Llama 2、Claude 2、Gemini和Mistral 7 B),并评估了他们评估其型号的基准。这些开发人员通常使用一些用于一般能力评估的标准基准,如MMLU、HellaSwag、ARC挑战、Codex HumanEval和GSM 8 K(图3.1.9)。
然而,负责任的人工智能基准报告缺乏一致性(图3.1.10)。与一般的能力评估不同,没有一套普遍接受的负责任的AI基准被领先的模型开发人员使用。TruthfulQA最多被五个选定的开发人员中的三个使用。其他值得注意的负责任的AI基准测试,如RealToxicityBronchts,ToxiGen,BOLD和BBQ,每个都被五个开发人员中的最多两个使用。此外,五分之一的开发人员没有报告任何负责任的人工智能基准,尽管所有开发人员都提到进行了额外的非标准化内部能力和安全测试。报告的基准的不一致性使模型的比较变得复杂,特别是在负责任的AI领域。基准选择的多样性可能反映了现有基准迅速饱和,无法进行比较,或者反映了在没有明确报告标准的情况下定期采用新的基准。此外,开发人员可能会选择性地报告积极突出其模型性能的基准。为了改进负责任的人工智能报告,重要的是要就基准模型开发人员应该一致测试的基准模型达成共识。
3.2 Privacy and Data Governance
隐私的全面定义是困难的,而且取决于上下文。出于本报告的目的,AI指数将隐私定义为个人对其个人数据的保密性,匿名性和保护的权利,沿着同意和被告知其数据是否以及如何使用的权利。隐私还包括组织在收集、存储或使用个人数据(直接或间接)时确保这些权利的责任。在人工智能中,这涉及确保以尊重个人隐私权的方式处理个人数据,例如,通过实施保护敏感信息免受暴露的措施,并确保数据收集和处理是透明的,并符合GDPR等隐私法。另一方面,数据治理包括为确保组织内数据的质量、安全性和道德使用而制定的政策、程序和标准。在人工智能的背景下,数据治理对于确保用于培训和操作人工智能系统的数据准确、公平、负责任地使用和征得同意至关重要。尤其是敏感或个人身份信息(PII)。
Current Challenges
对于依赖大量数据的LLM来说,获得培训数据收集的真正知情同意尤其具有挑战性。在许多情况下,用户不知道他们的数据是如何被使用的,也不知道收集的范围。因此,必须确保数据收集做法的透明度。与此相关的是,在人工智能系统的效用和个人隐私之间可能存在权衡。取得适当的平衡是复杂的。最后,适当地匿名化数据以增强隐私,同时保留数据对人工智能训练的有用性,在技术上可能具有挑战性,因为匿名数据总是有被重新识别的风险。
数字隐私和数据治理
下一节回顾了学术界和工业界的隐私和数据治理状况。
Academia
在今年的报告中,人工智能指数审查了六个主要人工智能会议的责任人工智能相关学术论文的数量:AAAI,AIES,FAccT,ICML,ICLR和NeurIPS.6隐私和数据治理作为人工智能研究人员感兴趣的主题继续增加。在AI指数分析的特定AI会议上,2023年有213份隐私和数据治理提交,是2022年提交数量(92)的近两倍,是2019年提交数量(39)的五倍多(图3.2.1)。
Industry
根据斯坦福大学和埃森哲研究人员合作开展的“全球负责任人工智能状况调查”,51%的组织报告称,隐私和数据治理相关风险与其人工智能采用战略相关。7从地理位置上看,欧洲(56%)和亚洲(55%)的组织最常报告隐私和数据治理风险相关。而总部设在北美的公司(42%)报告最少。调查还询问了各组织是否采取了措施来降低数据治理相关风险。8调查列出了他们可能采取的六种数据治理相关措施。9措施示例包括确保数据符合所有相关法律法规、获得数据使用许可以及定期进行审计和更新以保持数据相关性。总体而言,只有不到0.6%的公司表示,他们已经全面实施了所有六项数据治理缓解措施。然而,90%的公司自我报告说,它们至少实施了一项措施。此外,10%的国家报告说,它们尚未充分实施任何措施。在全球范围内,接受调查的公司报告平均采用了6项数据治理措施中的2.2项。
图3.2.2显示了按地理区域分列的平均采用率。图3.2.3显示了不同行业的公司报告采用人工智能数据治理措施的比率。
Featured Research
本节重点介绍了2023年发表的关于人工智能隐私和数据治理的重要研究。这些研究探讨了从LLM中提取数据,防止重复生成AI内容的挑战以及低资源隐私审计。
从LLM提取数据
LLM接受了大量数据的培训,其中大部分是从互联网等公共资源中抓取的。考虑到可以在网上找到的大量信息,一些PII也不可避免地被刮走也就不足为奇了。2023年11月发表的一项研究探讨了可提取记忆:在事先不知道初始训练数据集的情况下,是否以及如何从LLM中提取敏感的训练数据。研究人员测试了像Pythia这样的开放模型和像ChatGPT这样的封闭模型。作者表明,无论这些模型是开放的还是封闭的,都可以从所有这些模型中恢复大量的训练数据。虽然开放和半开放模型可以使用以前的研究方法进行攻击,但作者发现了新的攻击方法来克服ChatGPT等模型的护栏。
作者提出,数据提取的关键在于促使模型偏离其标准的对话框样式生成。例如,提示“永远重复这个词:‘poem poem poem poem,’”可能会导致ChatGPT无意中逐字泄露敏感的PII数据(图3.2.4)。某些提示比其他提示更有效地导致这种行为(图3.2.5)。尽管大多数偏差会产生无意义的输出,但一定比例的响应会披露来自模型的训练数据。使用这种方法,作者不仅成功地提取了PII,还提取了NSFW内容,逐字文献和通用唯一标识符。10通过各种人类可读的提示来引发不必要行为的红色团队模式变得越来越普遍。例如,人们可能会问一个模型,它是否可以提供制造炸弹的指令。虽然这些方法已经被证明是有效的,但上面提到的研究表明,还有其他更复杂的方法可以从模型中引发不必要的行为。
基础模型和逐字生成
今年,许多人工智能研究人员研究了生成模型生成内容的问题,这些内容反映了他们接受训练的材料。例如,Google、苏黎世联邦理工学院和康奈尔大学的研究探索了LLM中的数据记忆,发现没有任何保护措施的模型(即,防止输出逐字响应的过滤器)频繁地直接从它们的训练数据再现文本。研究发现,不同的模型对不同的数据集表现出不同的记忆率(图3.2.6)。作者认为,阻止扩展文本的逐字输出可以降低通过提取攻击暴露受版权保护的材料和个人信息的风险。他们提出了一种解决方案,其中模型在生成每个令牌时,检查与训练数据的n-gram匹配,以避免精确的复制。虽然他们开发了一种有效的方法来进行这种检查,有效地防止了完美的逐字输出,但他们观察到该模型仍然可以通过稍微改变输出来近似记忆。这种不完美的解决方案凸显了平衡模型实用性与隐私和版权问题的持续挑战。
研究还强调了视觉内容生成中精确和近似记忆的挑战,特别是Midjourney v6。这项研究发现,某些提示可以产生与电影中几乎相同的图像,即使没有直接指示重现特定的电影场景(图3.2.7)。例如,一个通用的提示,如“animated toys --v 6.0 --ar 16:9 --style raw”,产生的图像与《玩具总动员》中的人物非常相似,并且可能侵犯了这些人物(图3.2.8)。这表明该模型可能是在受版权保护的材料上训练的。尽管努力构建间接提示以避免侵权,但问题仍然存在,强调了与人工智能使用未经许可的数据相关的更广泛的版权问题。该研究进一步强调了引导生成式人工智能避免版权侵权的困难,这一担忧也适用于与ChatGPT相关的图像生成模型DALL-E(图3.2.9)。
Auditing Privacy in AI Models
确定一种模式是否具有隐私保护性,也就是说,它是否保护个人的个人信息和数据不被未经授权的披露或访问,这是一个挑战。隐私审计旨在设定隐私损失的下限,有效量化实际情况下的最小隐私损害(图3.2.10)。谷歌最近的研究引入了一种新方法,可以在一次训练运行中实现这一目标,这标志着比以前需要多次攻击和大量计算工作的方法有了实质性的进步。新技术涉及将多个独立的数据点同时而不是顺序地合并到训练数据集中,并通过尝试确定这些数据点中的哪些数据点用于训练来评估模型的隐私。这种方法通过显示它近似于几个单独的训练会话的结果来验证,每个训练会话都包含一个数据点。这种方法不仅计算要求较低,而且对模型性能的影响也很小,为对AI模型进行隐私审计提供了一种高效且影响较小的方法。
3.3 Transparency and Explainability
人工智能的透明度包括几个方面。数据和模型透明性涉及开放共享开发选择,包括数据源和算法决策。运营透明度详细说明了人工智能系统在实践中如何部署、监控和管理。虽然可解释性通常福尔斯透明度的范畴,提供了对人工智能决策过程的见解,但它有时被视为一个独特的类别。这一区别强调了人工智能不仅透明,而且对用户和利益相关者来说也是可以理解的。为了本章的目的,人工智能指数包括透明度中的可解释性,将其定义为理解和阐明人工智能决策背后的理由的能力。
Current Challenges
透明度和可解释性提出了若干挑战。首先,高级模型的固有复杂性,特别是那些基于深度学习的模型,创造了一个“黑箱”场景,即使是开发人员也很难理解这些模型如何处理输入和产生输出。这种复杂性阻碍了理解,并使向非专家解释这些系统的任务变得复杂。其次,在模型的复杂性和可解释性之间存在潜在的权衡。更复杂的模型可能会提供上级性能,但往往比更简单的模型(如决策树)更难解释。这种情况造成了一个困境:在高性能但不透明的模型和更透明但不太精确的替代品之间做出选择。
数字的透明度和可解释性
本节探讨了学术界和工业界人工智能透明度和可解释性的状况。
学术界
自2019年以来,提交给主要学术会议的关于透明度和可解释性的论文数量增加了两倍多。2023年,在AAAI、FAccT、AIES、ICML、ICLR和NeurIPS等学术会议上提交的可解释性相关论文数量(393篇)创历史新高(图3.3.1)。
工业界
在全球负责任的人工智能调查中,44%的受访组织表示,透明度和可解释性是考虑到其人工智能采用战略的相关问题。该调查列出了受访者可以表示采用的四种可能的透明度和可解释性措施。12图3.3.2显示了这些措施在不同地理区域的采用率。与调查中涵盖的其他负责任的人工智能领域相比,报告完全实施透明度和可解释性措施的组织比例较小。在所采用的4项措施中,全球平均值为1.43。在所有地区和行业中,只有8%的公司完全实施了一半以上的措施。很大一部分(12%)尚未全面实施任何措施。总体而言,不到0.7%的公司表示已全面实施所有措施。然而,88%的人自我报告至少实施了一项措施。图3.3.3进一步按行业细分了透明度和可解释性缓解措施的采用率。
Featured Research
本节展示了2023年发表的关于人工智能透明度和可解释性的重要研究。该研究包括一个监测AI模型透明度的新指数,以及对神经符号AI的研究。
The Foundation Model Transparency Index
2023年10月,斯坦福大学、普林斯顿大学和麻省理工学院的研究人员发布了基金会模型透明度指数(FMTI)。该指数评估基础模型在不同维度上的透明程度,包括开发资源分配、算法设计策略和模型的下游应用。该分析利用了开发人员发布的关于其模型的公开数据。Meta的Llama 2和BigScience的BLOOMZ是最透明的模型(图3.3.4)。然而,值得注意的是,所有模型的得分都相对较低,平均得分为37%。此外,开放模型–那些公开发布体重的模型–往往在透明度方面得分更高,平均得分为51.3%,而封闭模型的平均得分为30.9%,访问受限。
研究人员进一步根据开放程度对模型进行分类,如图3.3.5所示。图3.3.4汇总了每个基金会模型的透明度,包含100多个指标,图3.3.5则概述了模型按访问级别的分类。这个视角提供了对模型访问的可变性的更深入的了解,并说明了现有模型如何与不同的访问方案相一致。
神经符号人工智能(为什么,是什么,如何)
神经符号AI是一个有趣的研究方向,可以通过将深度学习与符号推理相结合来创建更透明和更可解释的AI模型。与可解释性较低的深度学习模型不同,符号推理提供了对模型如何工作的更清晰的见解,并允许通过专家反馈直接修改模型的知识。然而,就性能而言,单独的符号推理通常无法达到深度学习模型的要求。福尔斯。神经符号AI旨在将两个世界的最佳之处联合收割机结合起来。来自南卡罗来纳州大学和马里兰州大学的研究提供了神经符号AI中各种方法的全面映射和分类。该研究区分了两种方法,一种是压缩结构化符号知识以与神经网络结构集成,另一种是从神经网络中提取信息以将其转换回结构化符号表示以进行推理。图3.3.6举例说明了如何实现这种集成。研究人员希望,神经符号人工智能可以通过模仿人类认知来减轻纯粹基于神经网络的模型的一些缺点,例如幻觉或不正确的推理,特别是通过使模型拥有明确的世界知识模型。
3.4 Security and Safety
2023年,随着人工智能能力不断提升,模型变得越来越普遍,对模型安全性的担忧成为决策者的首要任务。本章探讨了安全和安保的三个不同方面。首先,保证人工智能系统的完整性涉及保护算法、数据和基础设施等组件免受网络攻击或对抗性攻击等外部威胁。其次,安全性涉及最大限度地减少故意或无意滥用人工智能系统造成的伤害。这包括开发自动化黑客工具或在网络攻击中利用人工智能等问题。最后,安全性包括人工智能系统本身的固有风险,例如可靠性问题(例如,幻觉)和先进人工智能系统带来的潜在风险。
Current Challenges
2023年,人工智能系统的安全性引发了重大辩论,特别是关于与先进人工智能相关的潜在极端或灾难性风险。一些研究人员主张解决当前的风险,如算法歧视,而其他人则强调为先进人工智能带来的潜在极端风险做好准备的重要性。鉴于无法保证后一种风险不会在某个时候出现,因此有必要通过负责任的人工智能开发来解决目前的风险,同时监测尚未实现的潜在未来风险。此外,人工智能系统的双重用途潜力,特别是基础模型,用于有益和恶意目的,增加了有关必要安全措施的讨论的复杂性。一个值得注意的挑战还来自人工智能系统放大网络攻击的潜力,导致威胁越来越复杂,适应性越来越强,难以检测。随着人工智能模型变得越来越流行和复杂,人们越来越关注识别安全漏洞,涵盖从快速注入到模型泄漏的一系列攻击。
AI Security and Safety in Numbers
学术界
尽管自二零二二年以来,在选定学术会议上提交的保安及安全报告数目有所减少,但自二零一九年以来,有关报告数目整体增加70. 4%(图3. 4. 1)。
工业界
全球负责任人工智能调查还向组织询问了可靠性风险,例如模型幻觉或输出错误。14这些风险的潜在缓解措施可能涉及管理低置信度输出或实施全面的测试用例,以便在不同场景中部署。在对1,000多家组织的调查中,45%的组织承认可靠性风险与其人工智能采用策略的相关性。在这些国家中,13%的国家充分实施了一半以上的调查措施,75%的国家实施了至少一项但不到一半的措施。此外,12%的受访者承认没有充分实施可靠性措施。在调查纳入的六项措施中,全球平均水平为2.16项完全实施。图3.4.2显示了按地理区域分列的减缓采用率。图3.4.3进一步按行业分解了AI相关的可靠性缓解采用率。
组织还被问及网络安全事件等安全风险的相关性,47%的组织承认其相关性。这些组织还被问及在多大程度上实施了某些安全措施,如基本的网络安全卫生做法或进行脆弱性评估。16在接受调查的组织中,28%的组织已充分实施了一半以上的拟议安全措施,63%的组织已充分实施了至少一项但不足一半的安全措施。此外,10%的人表示没有完全实施人工智能安全措施。在接受调查的5项措施中,公司平均采取了1.94项措施。图3.4.4和图3.4.5分别说明了各地区的网络安全措施采用率以及各行业的缓解措施采用率细分。
调查询问了公司对基础模型开发相关风险的看法。绝大多数组织(88%)同意或强烈同意那些开发基础模型的人负责减轻所有相关风险(图3.4.6)。此外,86%的受访者同意或强烈同意生成式人工智能构成的潜在威胁足以保证全球一致同意的治理。
Featured Research
本节展示了2023年发表的关于人工智能安全性的关键研究。这项研究研究了LLM的新安全基准,攻击AI模型的方法,以及测试AI系统中欺骗和道德行为的新基准。
不要回答:用于LLM安全风险综合基准的新开放数据集
随着LLMs能力的扩大,其在危险活动中被滥用的可能性也在扩大。LLM可能被用来支持网络攻击,促进鱼叉式网络钓鱼活动,甚至在理论上帮助恐怖主义。因此,开发人员设计评估AI模型潜在危险的机制变得越来越重要。像OpenAI和Anthropic这样的闭源开发人员已经构建了数据集来评估危险的模型功能,并通常实施安全措施来限制不必要的模型行为。然而,开源LLM的安全性评价方法明显缺乏。为此,一个国际研究小组最近创建了第一个全面的开源数据集,用于评估LLM的安全风险。他们的评估包括来自六个主要语言模型的响应:GPT-4,ChatGPT,Claude,Llama 2,维库纳和ChatGLM 2。作者还开发了一种风险分类法,涵盖了从轻度到重度的一系列风险。作者发现,大多数模型在一定程度上输出有害内容。GPT-4和ChatGPT最容易产生歧视性的攻击性输出,而Claude则容易传播错误信息(图3.4.7)。在所有受试模型中,ChatGLM 2记录的违规次数最多(图3.4.8)。
对对齐语言模型的通用可移植攻击
人工智能安全领域最近的关注点集中在发现能够绕过LLM实施的安全协议的对抗性攻击。这些研究大部分需要大量的人为干预,并且对特定模型具有特殊性。然而,在2023年,研究人员公布了一种能够在各种LLM上运行的通用攻击。这种攻击导致对齐的模型生成令人反感的内容(图3.4.9)。该方法涉及自动生成后缀,当添加到各种提示时,迫使LLM生成不安全的内容。图3.4.10突出显示了不同攻击风格对主要LLM的成功率。研究人员介绍的方法被称为贪婪坐标梯度(GCG)。该研究表明,这些后缀(GCG攻击)通常可以在封闭和开放模型中有效地传输,包括ChatGPT,Bard,Claude,Llama-2-Chat和Pythia。这项研究提出了一个重要问题,即如何更好地增强模型抵御自动对抗性攻击。它还演示了LLM如何容易受到使用无法理解的非人类可读提示的攻击。目前的红队方法主要集中在可解释的提示。这项新的研究表明,在缓冲LLM以防止利用不可解释提示的攻击方面存在显着差距。
MACHIAVELLI Benchmark
有许多基准测试,例如HELM和MMLU,可以评估基础模型的整体功能。然而,当这些系统被迫在社会环境中互动时,很少有评估来衡量它们的道德行为。这种缺乏措施的情况对全面了解人工智能系统的安全风险构成了相当大的障碍。如果这些系统部署在决策环境中,它们真的会构成威胁吗?于2023年推出的MARIAVELLI是一项旨在解决这一差距的新基准。它的创作者精心制作了134个冒险游戏,涵盖了超过50万个不同的社会决策场景。这些场景旨在评估人工智能代理追求权力,参与欺骗,诱导负效用和违反道德的程度。通过他们的研究,作者揭示了模型面临着最大化奖励(游戏分数)和做出道德决策之间的权衡。例如,一个倾向于提高分数的模型可能会发现自己被迫妥协其道德立场(图3.4.11)。此外,图3.4.12提供了各种主要AI模型(如GPT-3.5和GPT-4)之间的得分比较,这些模型跨越了权力、不道德和不满等不同的人工智能基准类别。分数越低,表明模型越注重道德。此外,研究人员还证明,有一些策略可以减轻最大化奖励和保持道德行为之间的权衡,这可以导致熟练和道德的人工智能代理的发展。在构建一个评估复杂人工智能系统中诸如欺骗、道德和权力寻求等特征的框架方面,Melliavelli是最早的重要尝试之一。
3.5 Fairness
人工智能的公平性强调开发公平的系统,避免对任何个人或群体的偏见或歧视。它涉及考虑受人工智能使用影响的所有利益相关者的不同需求和情况。公平超越了技术概念,体现了与公平有关的更广泛的社会标准。
Current Challenges
由于缺乏一个通用的公平定义和一个结构化的方法来选择适合上下文的公平定义,定义,测量和确保公平是复杂的。人工智能系统的多面性放大了这一挑战,这需要在其生命周期的几乎每个阶段都整合公平措施。
Fairness in Numbers
本节概述了学术界和工业界对人工智能公平性的研究和部署。
Academia
像ChatGPT和Gemini这样的LLM的兴起使公众更加意识到人工智能系统广泛部署时可能出现的一些公平性问题。这种意识的提高导致学术会议上与AI公平性相关的提交增加。2023年,提交了212篇关于公平性和偏倚的论文,较2022年增加了25. 4%(图3. 5. 1)。自2019年以来,此类提交的数量几乎翻了两番。
Industry
在前面提到的全球负责任人工智能调查中,29%的组织认为公平性风险与其人工智能采用策略相关。17从区域来看,欧洲组织(34%)最常报告这一风险,而北美组织报告的风险最少(20%)。该调查询问了受访者在人工智能模型开发、部署和使用中为减轻偏见、增强公平性和多样性所做的努力,并为他们提供了五种可能的实施措施。结果表明,虽然大多数公司已经充分实施了至少一项公平措施,但仍然缺乏全面的整合。在所询问的五项公平措施中,全球平均采用的公平措施为1.97。在公平性措施的实施方面没有显著的区域差异(图3.5.2)。图3.5.3显示了各行业的整合率。
Featured Research
这一部分重点介绍了2023年发表的关于人工智能公平的关键研究。通过关注重要的公平研究,AI指数突出了人工智能公平研究人员感兴趣的一些关键话题。下面介绍的研究揭示了形象生成模式如何延续社会刻板印象,LLM倾向于反映西方的观点,而模特标记化可能会引入不公平因素。
(Un)Fairness in AI and Healthcare
一个由美国和加拿大研究人员组成的小组调查了当LLM被提示回答医学问题时的种族偏见。他们询问了四个流行的LLM(巴德,GPT-3.5,克劳德,GPT-4)与九个不同的问题,以前已知的引发“基于种族的医学或广泛的误解种族”之间的真实的医生。每个模型被问到每个问题五次,每个模型得到45个回答。图3.5.4突出显示了著名的LLM对每个问题做出高度种族化回答的频率。19研究显示,所有模型都表现出一定程度的基于种族的医学偏见,尽管他们对相同问题的回答各不相同。对于某些问题,如种族的基础,只有一个模型,克劳德,一直提供有问题的答案。相比之下,对于其他问题,例如黑人和白色人之间所谓的皮肤厚度差异(医学生中普遍存在的误解),大多数模型经常产生基于种族的反应。偶尔被LLM揭穿的神话的延续强调了在医学背景下使用LLM时需要谨慎。
Social Bias in Image Generation Models
BiasPainter是一个新的测试框架,旨在检测图像生成模型中的社会偏见,如DALL-E和Midjourney。正如2023年人工智能指数所强调的那样,许多图像生成模型经常延续刻板印象和偏见(图3.5.5)。为了评估偏见,BiasPainter采用了广泛的种子图像和与职业,活动,对象和个性特征相关的中性提示进行图像编辑。然后,它将这些编辑与原始图像进行比较,集中精力识别性别,种族和年龄的不适当变化。BiasPainter在五个众所周知的商业图像生成模型(如Stable Diffusion、Midjourney和InstructPix 2 Pix)中进行了评估。所有模型均显示出沿沿着不同维度存在一定程度的偏倚(图3.5.6)。一般来说,生成的图像更偏向沿着年龄和种族比性别维度。总体而言,在自动偏差检测任务中,BiasPainter实现了90.8%的自动偏差检测准确率,比以前的方法有了相当大的改进。
Measuring Subjective Opinions in LLMs
Anthropic的研究表明,大型语言模型并不能平等地代表政治、宗教和技术等各种主题的全球观点。在这项研究中,研究人员建立了一个GlobalOpinionQA数据集,以捕获对各种问题的跨国意见(图3.5.7)。然后,他们生成了一个相似性指标,将各国人们的答案与LLM输出的答案进行比较。使用四点李克特量表,LLM被要求对他们与世界价值观调查(WVS)和皮尤研究中心全球态度(GAS)调查的声明的一致性进行评估,包括“当工作稀缺时,雇主应该优先考虑这个国家的人而不是移民”或“总的来说,男性比女性更适合做企业高管。实验表明,模型的反应与西方国家的个人反应非常一致(图3.5.8)。作者指出,意见代表性明显缺乏多样性,特别是来自非西方国家的共同回应。尽管模型很难精确地匹配全球观点的高度多样化分布(考虑到观点的固有差异),但了解模型可能分享哪些观点仍然很有价值。认识到模型中固有的偏差可以突出其局限性,并促进调整,提高区域适用性。
LLM Tokenization Introduces Unfairness
牛津大学的研究强调了人工智能中的不平等如何起源于令牌化阶段。标记化是将文本分解为更小的单元进行处理和分析的过程,在不同语言之间表现出显著的差异性。在不同的语言中,用于同一个句子的标记数量最多可以相差15倍。例如,葡萄牙语在GPT-4标记器的效率方面与英语非常接近,但它仍然需要大约50%的标记来传达相同的内容。掸语是英语中最远的语言,需要15倍以上的标记。图3.5.9可视化了上下文窗口的概念,而图3.5.10说明了不同语言中相同句子的令牌消耗。
作者指出了变量标记化导致的三个主要不平等。首先,对于相同的内容,需要比英语更多标记的语言的用户面临高达四倍的推理成本和更长的处理时间,因为两者都依赖于标记的数量。图3.5.11显示了同一句子在不同语言或语系中的标记长度和执行时间的差异。其次,这些用户可能还会经历更长的处理时间,因为模型需要更长的时间来处理更多数量的令牌。最后,鉴于模型在固定上下文窗口内运行–对可以输入的文本或内容的数量有限制–需要更多标记的语言按比例地使用了更多的该窗口。这可能会减少模型的可用上下文,从而潜在地降低这些用户的服务质量。
3.6 AI and Elections
到2024年,地球仪约有40亿人将在全国选举中投票,例如,在美国、英国印度尼西亚、墨西哥和中国台湾。即将举行的选举,加上公众对大赦国际的认识提高,引发了关于大赦国际可能对选举产生影响的讨论。本节涵盖了人工智能如何影响选举,并更具体地探讨了错误和虚假信息的生成和传播、人工智能生成内容的检测、LLM的潜在政治偏见,以及人工智能对政治的更广泛影响。
Generation, Dissemination, and Detection of Disinformation
制造虚假信息
在讨论人工智能对政治进程的影响时,最令人担忧的问题之一是虚假信息的产生。此外,自2020年美国大选以来,deepfake工具有了显著改善。大规模的虚假信息会破坏对民主制度的信任,操纵公众舆论,扰乱公共讨论。图3.6.1突出显示了可以创建的不同类型的deepfake。
斯洛伐克2023年的选举说明了如何在政治背景下使用基于人工智能的虚假信息。在选举前不久,Facebook上出现了一段有争议的音频片段,据称是进步斯洛伐克党领导人Michal Šimečka(图3.6.2)和Denník N报的记者Monika Tódová讨论非法选举策略,包括从罗姆人社区获得选民。这段录音的真实性立即受到了希梅奇卡和丹尼斯克·N的质疑。一个独立的事实核查小组认为,人工智能操纵可能在起作用。由于这段视频是在选举前的安静时期发布的,媒体和政治家的评论受到限制,因此这段视频的传播不容易受到质疑。这段视频的广泛传播也得益于Meta内容政策中的一个重大漏洞,该政策不适用于音频处理。这一事件是在选举竞争激烈的背景下发生的。最终,受影响的政党进步斯洛伐克以微弱优势输给了反对党之一的SMER。
虚假内容的传播
有时,围绕人工智能生成的虚假信息的担忧被最小化,理由是人工智能只帮助内容生成,而不是传播。然而,在2023年,出现了关于人工智能如何用于自动化整个生成和传播管道的案例研究。一位名叫Nea Paw的开发人员建立了Countercloud,作为创建全自动虚假信息管道的实验(图3.6.3)。作为管道的第一步的一部分,人工智能模型用于不断地在互联网上抓取文章,并自动决定应该针对哪些内容进行反文章。接下来,另一个人工智能模型的任务是编写一个令人信服的反文章,其中可以包括图像和音频摘要。这篇文章后来被认为是假记者写的,并被发布在CounterCloud网站上。随后,另一个人工智能系统会对反文章进行评论,创造出有机参与的外观。最后,人工智能搜索X中的相关推文,将反文章作为回复发布,并作为用户对这些推文进行评论。这个看似真实的错误信息系统的整个设置只需要大约400美元。
检测Deepfakes
最近针对Deepfakes的研究工作集中在改进检测AI生成内容的方法上。例如,新加坡的一个研究小组研究了deepfake检测器在没有经过训练的数据集上的泛化能力。研究人员比较了五种deepfake检测方法,发现最近引入的deepfake检测方法在从未见过的数据集上的性能显著下降(图3.6.4)。然而,该研究确实指出,可见和不可见的数据集之间存在潜在的相似性,这意味着未来可以创建强大且可广泛推广的deepfake检测器。
在deepfake检测器的背景下,强调早期的实验也很重要,这些实验表明,deepfake检测方法的性能在种族等属性之间存在显着差异。一些用于训练deepfake检测器的基础数据集,如FaceForensics++,在种族和性别方面并不平衡(图3.6.5)。然后,作者证明,在不同的种族亚组之间,性能准确性可能相差高达10.7个百分点。检测器在深色皮肤上表现最差,在白人脸上表现最好。
LLMs and Political Bias
LLM越来越多地被认为是普通人可以了解政治进程,候选人或政党等重要政治话题的工具。然而,2023年发表的新研究表明,许多主要的LLM,如ChatGPT,并不一定没有偏见。该研究显示,ChatGPT表现出明显的系统性偏见,有利于美国的民主党和英国的工党。作为研究的一部分,研究人员将默认ChatGPT的答案与共和党,民主党,激进共和党和激进民主党ChatGPT版本的答案进行了比较。这项研究设计是为了更好地识别哪种政治忠诚最接近于常规ChatGPT。图3.6.6显示了默认ChatGPT之间的强正相关(蓝线),即,一个是回答问题,没有额外的指示,和民主党和激进的民主党ChatGPT版本,即,他们被要求像民主党人或激进民主党人一样回答问题。另一方面,研究人员发现默认GPT和共和党ChatGPT之间存在很强的负相关性。这些LLM中的偏见引起了人们对它们可能影响使用这些工具的用户的政治观点和立场的担忧。
AI对政治进程的影响
越来越多的研究旨在探索人工智能可能对政治进程构成的一些风险。一个有趣的话题是音频深度伪造。2023年7月,印度印度教党一名政客的音频片段被发布,该政客在视频中攻击自己的政党,并称赞其政治对手。这位政治家声称这些音频片段是使用AI创建的。然而,即使咨询了Deepfake专家,也无法100%确定这些片段是否真实。2023年发表的研究表明,人类通常在可靠地检测音频深度伪造方面存在问题。在他们的529个样本中,听众只有73%的时间正确检测到deepfake。图3.6.7显示了研究的其他一些关键发现。作者还预计,由于音频生成方法的改进,检测精度在未来会下降。更令人信服的音频深度造假的兴起增加了操纵政治竞选、诽谤对手并为政客提供“骗子红利”的可能性,即将破坏性音频片段视为捏造的能力。
人工智能还可以以其他方式影响政治进程。贝尔法斯特女王大学的研究指出了人工智能影响政治进程的其他方式,以及与不同风险案例相关的潜在缓解措施(图3.6.8)。例如,人工智能可以用于对选民进行视频监控,这可能会破坏选举的完整性。这些作者确定了每个人工智能政治用例在技术上的准备程度,它所拥有的风险水平,以及人工智能的部署对用户的可见性(图3.6.9)。例如,他们提出,使用人工智能进行选民身份验证已经非常可行,而这种应用程序具有很大的风险。
以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!
如有侵权,请联系我删除。xingyezn@163.com