全文翻译 | OWASP《LLM安全与治理检查清单》

💡 摘要: 

LLM AI Cybersecurity & Governace Checklist

version 1.0

发布时间:2024年2月19日

本文是OWASP(开放式网络应用安全项目)发布的《LLM AI安全与治理清单》(以下简称“清单”),旨在为使用大型语言模型(LLM)的组织提供安全与治理方面的指导。清单强调了负责任和可信的人工智能(AI)的重要性,并指出AI技术,尤其是LLM,在创新、效率和商业成功方面具有巨大潜力,同时也带来了明显的挑战。文中讨论了LLM面临的挑战,包括控制和数据平面的不可分割性、非确定性设计、语义搜索的使用等,并强调了LLM增加的攻击面和相关风险。


清单提供了一个框架,帮助组织确定其LLM策略,包括部署策略、治理、法律和监管要求。文中还强调了AI安全和隐私培训的重要性,并建议将LLM安全和治理整合到现有的实践和控制中。此外,清单提出了风险评估和管理的方法,以及漏洞和缓解策略的分类法。


清单的结构详细列出了多个检查点,包括对抗性风险、威胁建模、AI资产清单、业务案例建立、治理、法律问题、监管问题、LLM解决方案的使用或实施、测试、评估、验证和验证(TEVV)、模型卡和风险卡、AI红队演练等。每个检查点都提供了详细的指导和建议,以帮助组织评估和增强其LLM应用的安全性和合规性。

1. 概述

每个互联网用户和公司都应该为即将到来的强大生成性人工智能(GenAI)应用浪潮做好准备。GenAI在各个行业创新、效率和商业成功方面有着巨大的潜力。然而,像任何强大的早期技术一样,它也带来了一系列明显和意想不到的挑战。

人工智能在过去50年中取得了巨大进步,在ChatGPT公开亮相之前,它不显眼地支持着各种企业流程,这些技术最初仅限于学术研究或在公司内部执行某些重要活动,只有少数人可见。然而,数据可用性、计算能力、GenAI能力的最新进展,以及Llama 2、ElevenLabs和Midjourney等工具的发布,使人工智能从小众走向了广泛的普遍接受。这些进步不仅使GenAI技术更加易于获取,也凸显了企业开发坚实的策略来整合和利用人工智能在其运营中的关键需求,这是我们使用技术方式的巨大进步。

  • 人工智能(AI)是一个广泛的术语,包括所有使机器能够完成通常需要人类智能的任务的计算机科学领域。机器学习和生成性AI是AI的两个子类别。

  • 机器学习是AI的一个子集,专注于创建可以从数据中学习的算法。机器学习算法在一组数据上进行训练,然后它们可以使用这些数据对新数据进行预测或决策。

  • 生成性AI是一种专注于创建新数据的机器学习类型。

  • 大型语言模型(LLM)是一种处理和生成文本的AI模型。在人工智能的背景下,“模型”指的是一个系统,它被训练基于输入数据进行预测。LLM专门在大量自然语言数据集上进行训练,这就是大型语言模型名称的由来。

组织在保护和监管GenAI解决方案方面正进入未知领域。GenAI的快速发展也为对手提供了增强攻击策略的机会,引入了防御和威胁升级的双重挑战。

企业在许多领域使用人工智能,包括人力资源招聘、电子邮件垃圾邮件筛选、SIEM行为分析(使用安全信息和事件管理Security Information and Event Management,简称SIEM)以及托管检测和响应应用程序。然而,本文档的主要关注点是大型语言模型应用程序及其在创建生成内容方面的功能。

负责任、可信的人工智能

随着人工智能的挑战和益处的出现——以及法规和法律的通过,负责任、可信的AI使用的原则和支柱正在从理想化的对象和关注点演变为既定标准。OWASP AI Exchange工作组正在监控这些变化,并解决所有人工智能方面的更广泛和更具挑战性的考虑。

图片

这是给谁的?

OWASP LLM应用Top 10网络安全和治理清单适用于行政、技术、网络安全、隐私、合规和法律领域的领导者,DevSecOps、MLSecOps和网络安全团队和防御者。它适用于那些努力在快速发展的AI世界中保持领先地位的人,他们不仅旨在利用AI实现企业成功,而且还旨在保护免受仓促或不安全AI实施的风险。这些领导者和团队必须制定策略来抓住机会、应对挑战和降低风险。

这个清单旨在帮助这些技术和业务领导者快速了解使用LLM的风险和益处,使他们能够专注于开发一个全面的列表,列出在制定大型语言模型策略时保护和保护组织所需的关键领域和任务。

OWASP LLM应用Top 10团队希望这个列表能帮助组织改进现有的防御技术,并开发出应对使用这项令人兴奋的技术所带来的新威胁的技术。

为什么是清单?

用来制定策略的清单可以提高准确性,明确目标,保持一致性,并促进专注的深思熟虑的工作,减少疏忽和遗漏的细节。遵循清单不仅可以增加对安全采用过程的信任,还可以通过提供一种简单有效的持续改进策略,鼓励未来的组织创新。

非全面性

尽管本文档旨在支持组织在快速变化的技术、法律和监管环境中制定初步的LLM策略,但它并不是全面的,也不涵盖每个用例或义务。在使用本文档时,组织应根据其用例或司法管辖区的要求,将评估和实践扩展到提供的清单范围之外。

大型语言模型挑战

大型语言模型面临几个严重且独特的问题。最重要的问题之一是,在与LLMs合作时,控制平面和数据平面不能被严格隔离或分离。另一个重大挑战是,LLMs的设计是非确定性的,当被提示或请求时会产生不同的结果。LLMs采用语义搜索而不是关键词搜索。两者之间的关键区别在于模型算法会优先考虑其响应中的术语。这与消费者以往使用技术的方式有显著不同,它影响了结果的一致性和可靠性。幻觉,源于模型训练数据中的空白和缺陷,就是这种方法的结果。

*译者注:

  • 控制平面(Control Plane):控制平面负责处理网络设备之间的通信和决策过程,例如路由信息的交换、网络策略的制定等。在AI模型的上下文中,控制平面可能涉及到模型的训练、推理过程中的决策制定。

  • 数据平面(Data Plane):数据平面是指网络中负责数据转发的部分,即实际传输数据流的路径。在AI模型中,数据平面可以类比为模型接收输入数据、处理数据并产生输出结果的部分。

  • 隔离性问题:在理想的系统设计中,控制平面和数据平面应该是相互隔离的,以确保系统的安全性和稳定性。控制平面的决策不应该直接影响数据平面的操作,反之亦然。然而,在LLMs中,由于模型的复杂性和动态性,控制平面的决策(如调整模型的行为以适应新的输入数据)可能直接影响数据平面的处理过程。

  • 非严格分离:在LLMs中,控制平面和数据平面的非严格分离可能意味着模型的某些方面(如学习算法、参数更新)与模型的实际数据处理(如输入输出)紧密相连,难以完全分开。这可能导致模型的某些行为难以预测或控制,增加了管理上的复杂性。

有方法可以提高可靠性并减少越狱、模型欺骗和幻觉的攻击面,但在限制和实用性之间存在权衡,在成本和功能方面都有影响。

LLM的使用和LLM应用程序增加了组织攻击面的面积。与LLMs相关的一些风险是独特的,但许多是已知问题,例如已知的软件材料清单(SBoM)、供应链、数据丢失保护(DLP)和授权访问。还有与GenAI无直接关系但增加的风险,但GenAI提高了攻击者攻击和威胁组织的效率、能力和有效性。

对手越来越多地利用LLM和生成性AI工具来改进和加速攻击组织、个人和政府系统的传统方法。LLM促进了他们增强技术的能力,使他们能够轻松地创建新的恶意软件,可能嵌入新的零日漏洞或设计以规避检测。它们还可以生成复杂、独特或定制的网络钓鱼计划。令人信服的深度伪造的创建,无论是视频还是音频,进一步促进了他们的社会工程诡计。此外,这些工具使他们能够执行入侵并开发创新的黑客能力。在未来,犯罪分子对AI技术的“定制化”和复合使用将需要特定的响应和专用解决方案,以组织适当的防御和弹性能力。

组织还面临着不利用LLMs等能力所带来的威胁,例如竞争劣势、客户和合作伙伴认为过时的市场感知、无法扩展个性化通信、创新停滞、运营效率低下、流程中人为错误风险更高以及人力资源分配不当。

了解不同类型的威胁并将其与业务战略整合将有助于权衡使用大型语言模型(LLMs)的利弊,确保它们加速而不是阻碍业务实现业务目标。

LLM威胁类别

图片

人工智能安全和隐私培训

组织中的员工从培训中受益,以理解人工智能、生成性人工智能以及构建、购买或使用LLMs的未来潜在后果。针对许可使用和安全意识的培训应针对所有员工,并对某些职位如人力资源、法律、开发人员、数据团队和安全团队进行更专业的培训。

合理使用政策和健康互动是关键方面,如果从一开始就纳入,将成为未来人工智能网络安全意识活动成功的基石。这将为用户在互动的基本规则以及区分良好行为与不良或不道德行为的能力方面提供必要的知识。

将LLM安全和治理与现有、成熟的实践和控制相结合

虽然AI和生成性AI为网络安全、弹性、隐私和满足法律和监管要求增添了新的维度,但长期以来的最佳实践仍然是识别问题、发现漏洞、修复它们和减轻潜在安全问题的最佳方式。

  • 确认人工智能系统的管理与现有的组织实践相结合。

  • 确认AI/ML系统遵循现有的隐私、治理和安全实践,并在需要时实施特定的AI隐私、治理和安全实践。

基本安全原则

LLM功能引入了不同类型的攻击和攻击面。LLM容易受到复杂的业务逻辑错误的影响,例如提示注入、不安全的插件设计和远程代码执行。现有的最佳实践是解决这些问题的最佳方式。一个了解安全软件审查、架构、数据治理和第三方评估的内部产品安全团队,网络安全团队还应该检查当前控制的强度,以发现可能因LLM而恶化的问题,例如声音克隆、冒充或绕过验证码。鉴于在机器学习、自然语言处理(NLP)、自然语言理解(NLU)、深度学习以及最近的LLM(大型语言模型)和生成性AI方面最近的进步,建议在这些领域的专业人员与网络安全和运维团队一起参与。他们的专业知识不仅有助于采用这些技术,还有助于开发对新兴挑战的创新分析和响应。

风险

风险引用使用ISO 31000定义:“风险是不确定性对目标的影响。”清单中包括的LLM风险包括一个针对性的LLM风险列表,这些风险涉及对抗性、安全、法律、监管、声誉、财务和竞争风险。

漏洞和缓解措施分类法

当前用于分类漏洞和共享威胁信息的系统,如OVAL、STIX、CVE和CWE,仍在开发能够监测和警告特定于大型语言模型(LLMs)和预测模型的漏洞和威胁的能力。预计组织将依赖这些既定和公认的标准,如CVE用于漏洞分类和STIX用于网络威胁情报(CTI)的交换,当识别到AI/ML系统及其供应链的漏洞或威胁时。

2.确定LLM策略

大型语言模型(LLM)应用的快速扩展提高了对业务运营中使用的AI/ML系统的关注和审查,包括生成性AI和长期建立的预测性AI/ML系统。这种增加的关注暴露了潜在的风险,例如攻击者针对以前被忽视的系统,以及可能在法律、隐私、责任或保证问题方面被忽视的治理或法律挑战。对于任何在运营中利用AI/ML系统的组织来说,评估和建立全面的政策、治理、安全隐私措施和问责标准至关重要,以确保这些技术安全和道德地与业务流程对齐。

攻击者或对手为企业、人员和政府机构提供了最紧迫和有害的威胁。他们的目标从经济利益到间谍活动,促使他们窃取关键信息、破坏运营和损害信心。此外,他们利用新技术开发攻击的能力,如AI和机器学习,增加了攻击的速度和复杂性,使防御难以领先于攻击。

对许多组织来说,最紧迫的非对手LLM威胁源于“影子AI”:员工使用未经批准的在线AI工具、不安全的浏览器插件和通过更新或升级引入LLM功能的第三方应用程序,绕过标准的软件审批流程。

图片

部署策略

部署范围从利用公共消费者应用程序到在私有数据上训练专有模型。用例敏感性、所需能力和可用资源等因素有助于确定便利性与控制之间正确的平衡。然而,了解这五种模型类型为评估选项提供了一个框架。

图片

3. 检查清单

3.1. 对抗性风险

对抗性风险包括竞争对手和攻击者。

  • 仔细审查竞争对手在人工智能方面的投资。尽管AI采用存在风险,但也可能影响未来市场地位的商业利益。

  • 调查对当前控制措施的影响,例如使用语音识别的密码重置,可能不再为新的GenAI增强攻击提供适当的防御安全。

  • 为GenAI增强攻击和AI/ML特定事件更新事件响应计划。

3.1. 威胁建模

强烈建议进行威胁建模,以识别威胁并检查流程和安全防御。威胁建模是一套系统化、可重复的过程,使应用程序、软件和系统能够做出合理的安全决策。在部署LLMs之前,对GenAI加速攻击进行威胁建模是识别和缓解风险、保护数据、保护隐私以及确保业务内安全、合规集成的最经济有效方式。

  • 攻击者将如何加速针对组织、员工、高管或用户的利用攻击?组织应预判使用生成性AI的“超个性化”攻击。现在,LLM辅助的鱼叉式网络钓鱼攻击在效果上呈指数级增长,更具针对性和武器化。

*译者注:LLM辅助的鱼叉式网络钓鱼攻击指的是利用大型语言模型(LLMs)增强的人工智能技术来实施的网络钓鱼攻击。这种攻击方式通常具有以下特点:

  • 个性化和针对性:LLMs能够生成高度个性化的诱饵,这些诱饵是根据目标受害者的特定信息定制的,使得攻击更具有说服力。

  • 语言能力:LLMs擅长生成自然语言,这意味着它们可以创建语法正确、表达流畅的邮件或信息,这增加了钓鱼攻击的可信度。

  • 自动化:LLMs可以自动化创建钓鱼邮件的过程,快速生成大量个性化的攻击内容,提高了攻击的效率。

  • 智能学习:LLMs通过机器学习不断优化其策略,根据受害者的反应调整钓鱼邮件的内容,以提高成功率。

  • 社会工程:LLMs辅助的鱼叉式网络钓鱼攻击通常结合社会工程学技巧,利用人际关系和信任关系来诱导受害者采取某些行动,如点击链接、下载附件或泄露敏感信息。

因此,LLM辅助的鱼叉式网络钓鱼攻击是一种结合了人工智能技术和传统网络钓鱼手段的高级攻击方式,对网络安全构成了新的挑战。

  • GenAI可能如何被用于通过欺骗或GenAI生成的内容攻击企业的客户或客户?

  • 企业能否检测并应对LLM解决方案的有害或恶意输入或查询?

  • 企业能否通过在所有LLM信任边界上安全集成来保护与现有系统和数据库的连接?

  • 企业是否有内部威胁缓解措施,以防止授权用户的滥用?

  • 企业能否防止未经授权的专有模型或数据访问以保护知识产权?

  • 企业能否通过自动化内容过滤防止生成有害或不当内容?

3.3. AI资产清单

AI资产清单应适用于内部开发和外部或第三方解决方案。

  • 制作现有的AI服务、工具和所有者的目录。在资产管理中为特定清单指定标签。

  • 将AI组件包括在软件材料清单(SBOM)中,制作与应用程序相关联的所有软件组件、依赖项和元数据的全面列表。

  • 制作AI数据源及数据的敏感性(受保护、机密、公开)的目录

  • 建立是否需要对部署的AI解决方案进行渗透测试或红队测试以确定当前的攻击面风险的流程。

  • 创建AI解决方案的上线流程。

  • 确保有熟练的IT管理员人员可用,无论是内部还是外部,遵循SBOM要求。

3.4. AI安全和隐私培训

  • 积极与员工互动,了解并解决对计划中的LLM的担忧。

  • 建立一种开放、透明的文化,就组织在组织流程、系统、员工管理和支持以及客户参与中使用预测性或生成性AI的方式进行沟通,以及其使用是如何治理、管理和解决风险的。

  • 对所有用户进行伦理、责任和法律问题的培训,如保证、许可和版权。更新安全意识培训,包括与GenAI相关的威胁,如声音克隆和图像克隆,以及预期增加的鱼叉式网络钓鱼攻击。

  • 任何采用的GenAI解决方案都应包括DevOps和网络安全的培训,以确保AI安全和安全保证的部署管道。

3.5.建立商业案例

坚实的商业案例对于确定任何提议的AI解决方案的商业价值至关重要,平衡风险和收益,并评估和测试投资回报。如下是提供了一些示例:

  • 增强客户体验

  • 更好的运营效率

  • 更好的知识管理

  • 增强创新

  • 市场研究和竞争分析

  • 文件创建、翻译、摘要和分析

3.6. 治理

LLM中的企业治理需要为组织提供透明度和问责制。确定可能熟悉技术或业务选定用例的AI平台或流程所有者,不仅是更为提倡而且必要,以确保足够的反应速度,防止对成熟的企业数字流程造成附带损害。

  • 建立组织的AI RACI图(谁负责,谁应负责,谁应该被咨询,谁应该被告知)

  • 在组织内记录和分配AI风险、风险评估和治理责任。

  • 建立数据管理政策,包括关于数据分类和使用限制。模型只应利用系统任何用户最低访问级别的数据。例如,更新数据保护政策,强调不要将受保护或机密数据输入到非业务管理工具中。

  • 创建一个由既定政策(例如,行为准则、数据保护、软件使用)支持的AI政策。

  • 为员工使用的各种生成性AI工具发布可接受使用的矩阵。

  • 记录组织从生成性LLM模型中使用的数据的来源和管理。

3.7.法律

AI的许多法律影响尚未定义,可能成本非常高。IT、安全和法律合作伙伴关系对于识别差距和解决模糊决策至关重要。

  • 确认产品保证在产品开发流程中是清晰的,以分配谁对AI产品保证负责。

  • 查看并更新现有的条款和条件,以考虑任何GenAI问题。

  • 查看AI最终用户许可协议。GenAI平台的最终用户许可协议在处理用户提示、输出权利和所有权、数据隐私、合规性、责任、隐私以及输出使用限制方面非常不同。

  • 修改组织客户最终用户协议,以防止组织因AI生成内容而承担与抄袭、偏见传播或知识产权侵权相关的责任。

  • 查看任何用于代码开发的AI辅助工具。聊天机器人编写代码的能力可能会威胁到公司对其产品的所有权权,如果聊天机器人被用来为产品生成代码。例如,这可能会引发有关生成内容的状态和保护以及谁持有使用生成内容的权利的问题。

  • 查看任何知识产权风险。如果聊天机器人在生成过程中使用了不当获取的数据,那么由聊天机器人生成的知识产权可能会受到威胁,这些数据受版权、商标或专利保护。如果AI产品使用了侵权材料,就会为AI的输出造成知识产权侵权的风险。

  • 查看任何带有赔偿条款的合同。赔偿条款试图将导致责任的事件的责任放在更有过错的人或有更好的机会阻止它的人身上。建立护栏,以确定是AI提供者还是其用户引起了引起责任的事件。

  • 查看AI系统可能造成的潜在伤害和财产损害的责任。查看保险覆盖范围,传统的(D&O)责任和商业一般责任保险政策可能不足以完全保护AI的使用。

  • 确定任何版权问题。人类作者身份是版权所必需的。如果LLM工具被滥用,组织也可能因抄袭、偏见传播或知识产权侵权而承担责任。

  • 确保为承包商和适当使用AI的任何开发或提供的服务有协议。

  • 在可以执行权利或存在知识产权侵权问题的地方,限制或禁止员工或承包商使用生成性AI工具。

  • 评估和AI解决方案用于员工管理或招聘可能导致不同的待遇索赔或不同的影响索赔。

  • 确保AI解决方案在没有适当的同意或授权的情况下不收集或共享敏感信息。

3.8.监管

欧盟AI法案预计将是首个全面的AI法律,但最早将在2025年生效。欧盟的通用数据保护条例(GDPR)并未特别针对AI,但包含了影响GenAI使用的数据收集、数据安全、公平与透明度、准确性与可靠性以及问责制等规则。在美国,AI法规被纳入更广泛的消费者隐私法律中。到2023年底,已有十个州通过了法律或将生效的法律。联邦机构,如美国平等就业机会委员会(EEOC)、消费者金融保护局(CFPB)、联邦贸易委员会(FTC)和美国司法部民权司(DOJ),正在密切监控招聘公平性。

  • 确定国家、州或其他政府特定的AI合规要求。

  • 确定限制员工电子监控和与就业相关的自动化决策系统的合规要求(佛蒙特州、加利福尼亚州、马里兰州、纽约州、新泽西州)。

  • 确定面部识别和AI视频分析所需的同意合规要求(伊利诺伊州、马里兰州、华盛顿州、佛蒙特州)。

  • 审查任何正在使用或考虑使用的AI工具。

  • 确认供应商遵守适用的AI法律和最佳实践。

  • 询问并记录招聘过程中使用的所有AI产品。询问模型是如何训练的,如何监控,以及如何进行更正以避免歧视和偏见。

  • 询问并记录包括的适应性选项。

  • 询问并记录供应商是否收集机密数据。

  • 询问供应商或工具如何存储和删除数据,以及如何规范使用面部识别和视频分析工具。

  • 审查可能引起合规问题的其他组织特定的AI法规。例如,1974年的《雇员退休收入安全法》(ERISA)对退休计划有受托责任要求,聊天机器人可能无法满足。

3.9.使用或实施大型语言模型解决方案

  • 对LLM组件和架构信任边界进行威胁建模。

  • 数据安全,验证数据如何根据敏感性进行分类和保护,包括个人和专有业务数据。(用户权限如何管理,有哪些保障措施?)

  • 访问控制,实施最小权限访问控制并实施深度防御措施。

  • 训练管道安全性,对训练数据治理、管道、模型和算法进行严格管控。

  • 输入和输出安全,评估输入验证方法,以及输出如何被过滤、消毒和批准。

  • 监控和响应,映射工作流程、监控和响应,以了解自动化、日志记录和审计。确认审计记录是安全的。

  • 在生产发布过程中包括应用程序测试、源代码审查、漏洞评估和红队测试。

  • 检查LLM模型或供应链中存在的漏洞。

  • 研究威胁和攻击对LLM解决方案的影响,例如提示注入、敏感信息泄露和流程操纵。

  • 调查攻击和威胁对LLM模型的影响,包括模型投毒、不当数据处理、供应链攻击和模型盗窃。

  • 供应链安全,请求第三方审计、渗透测试和代码审查第三方供应商。(最初和持续的基础上)

  • 基础设施安全,询问供应商多久进行一次弹性测试?他们关于可用性、可扩展性和性能的SLA是什么?

  • 更新事件响应演练,包括LLM事件演练。确定或扩展指标,以衡量生成性网络安全AI与其他方法相比的预期生产力改进。

3.10.测试、评估、验证和验证 (TEVV)

NIST AI框架推荐在AI生命周期中持续进行TEVV流程,包括AI系统运营商、领域专家、AI设计师、用户、产品开发人员、评估人员和审计员。TEVV包括一系列任务,如系统验证、集成、测试、重新校准和持续监控,以适应AI系统的变更和风险。

  • 在AI模型生命周期中建立持续的测试、评估、验证和验证。

  • 定期提供关于AI模型功能、安全性、可靠性和鲁棒性的执行指标和更新。

3.11.模型卡和风险卡

模型卡和风险卡是提高大型语言模型(LLMs)透明度、问责制和伦理部署的基础元素。模型卡通过提供关于其设计、能力和限制的标准文档,帮助用户理解和信任AI系统,引导他们进行教育和安全的应用。风险卡通过公开解决潜在的负面后果,如偏见、隐私问题和安全漏洞,鼓励采取积极的伤害预防方法。这些文件对于开发人员、用户、监管机构和伦理学家同样至关重要,因为它们建立了一个协作氛围,在这种氛围中,AI的社会影响被仔细地解决和处理。这些卡片由创建模型的组织开发和维护,在确保AI技术满足伦理标准和法律要求、在AI生态系统中负责任的研究和部署中发挥着重要作用。

模型卡包括与ML模型相关的关键属性:

  • 模型细节:关于模型的基本信息,即名称、版本和类型(神经网络、决策树等),以及预期的用例。

  • 模型架构:包括模型结构的描述,如层数和类型、激活函数和其他关键架构选择。

  • 训练数据和方法:有关用于训练模型的数据的信息,如数据集大小、数据来源以及使用的任何预处理或数据增强技术。它还包括有关训练方法的细节,如使用的优化器、损失函数和调整的任何超参数。

  • 性能指标:有关模型在各种指标上的性能信息,如准确率、精确度、召回率和F1分数。它还可能包括有关模型在数据的不同子集上的性能的信息。

  • 潜在偏见和限制:列出模型的潜在偏见或限制,如不平衡的训练数据、过拟合或模型预测中的偏见。它还可能包括有关模型限制的信息,如其泛化到新数据的能力或适用于某些用例的适用性。

  • 负责任的AI考虑:与模型相关的任何伦理或负责任的AI考虑,如隐私问题、公平性和透明度,或模型使用的潜在社会影响。它还可能包括有关进一步测试、验证或监控模型的建议。

模型卡中包含的确切特性可能根据模型的上下文和预期使用而异,但其目的是在机器学习模型的创建和部署中提供开放性和问责性。

  • 查看模型的模型卡

  • 如果可用,查看风险卡

  • 建立一个流程,跟踪和维护任何部署模型的模型卡,包括通过第三方使用的模型。

3.12.RAG:大型语言模型优化

微调或传统的优化预训练模型的方法,涉及在新的、特定领域的数据上重新训练现有模型,以提高其在任务或应用中的性能。微调成本高昂,但对提高性能至关重要。

检索增强生成(RAG)已成为一种更有效的优化和增强大型语言模型能力的方法,通过从最新的可用知识源检索相关数据。RAG可以为特定领域定制,优化检索特定领域的信息,并将生成过程调整为专业领域的细微差别。RAG被视为一种更有效和透明的LLM优化方法,特别是对于标记数据有限或收集成本高昂的问题。RAG的一个主要优点是其支持持续学习,因为新信息可以在检索阶段不断更新。

RAG(检索增强生成)的实现包括几个关键步骤:首先是部署嵌入模型,然后是建立知识库索引,接着是检索并处理与查询最相关的文档。这一过程中,向量数据库发挥着重要作用,它们用于存储文档的嵌入表示,并高效检索相关上下文信息。通过这种方式,RAG能够快速找到并利用最相关的知识来增强生成的内容。

RAG参考

  • 检索增强生成(RAG)& LLM

  • 12个RAG痛点和建议的解决方案

3.13. AI红队

AI红队是对AI系统的对抗性攻击测试模拟,以验证是否存在攻击者可以利用的现有漏洞。这是包括拜登政府在内的许多监管和AI管理机构推荐的做法。红队测试本身并不是验证所有与AI系统相关的现实世界伤害的全面解决方案,应与其他形式的测试、评估、验证和验证(如算法影响评估和外部审计)一起使用。

  • 将红队测试作为AI模型和应用程序的标准实践纳入。

4. 资源

4.1. OWASP大型语言模型应用Top 10

图片

4.2. OWASP大型语言模型Top 10应用

图片

4.3. OWASP 资源

使用LLM解决方案的OWASP资源扩展了组织的攻击面,并提出了新的挑战,需要特殊的策略和防御。它还提出了与已知问题类似的的问题,并且已经有既定的网络安全程序和缓解措施。将LLM网络安全与组织既定的网络安全控制、流程和程序整合,允许组织减少对威胁的脆弱性。它们如何相互整合可在OWASP集成标准中找到。

OWASP 资源描述推荐原因及使用地点
OWASP SAMM 软件保证成熟度模型提供一种有效且可量化的方式来分析和改进组织的软件开发生命周期的安全性。SAMM 支持完整的软件生命周期,是迭代和风险驱动的,使组织能够识别和优先处理安全软件开发中的差距,以便资源可以集中投入到最需要改进的地方。
OWASP AI 安全和隐私指南OWASP 项目旨在全球范围内就 AI 安全进行交流,促进标准一致性,并推动合作。OWASP AI 安全和隐私指南是一份详尽的 AI 安全和隐私考虑因素列表,旨在成为开发人员、安全研究人员和安全顾问验证 AI 系统安全性和隐私性的综合资源。
OWASP AI ExchangeOWASP AI Exchange 是 OWASP AI 安全和隐私指南的主要输入方法。
OWASP 机器学习安全 Top 10收集并呈现机器学习系统最重要的安全问题,以易于安全专家和数据科学家理解的格式。该项目包括 ML Top 10,是一个提供设计、创建、测试和采购安全和保护隐私的 AI 系统的清晰可行见解的活文档。这是 OWASP 针对 AI 全球法规和隐私信息的最佳资源。
OpenCRE一个交互式内容链接平台,用于将安全标准和指南统一为一个概览。使用此站点搜索标准,可以按标准名称或控制类型搜索。
OWASP 威胁建模一个结构化、正式的应用程序威胁建模过程。了解有关威胁建模的所有信息,它是对影响应用程序安全的所有信息的结构化表示。
OWASP CycloneDX一个全栈材料清单(BOM)标准,为减少网络风险提供先进的供应链能力。现代软件使用第三方和开源组件组装而成,它们以复杂和独特的方式结合在一起,并与原始代码集成以实现所需的功能。SBOM 提供了所有组件的准确清单,使组织能够识别风险,允许更大的透明度,并实现快速影响分析。EO 14028 为联邦系统的 SBOM 提供了最低要求。
OWASP 软件组件验证标准 (SCVS)一个社区驱动的努力,旨在建立一个框架,识别活动、控制和最佳实践,帮助识别和减少软件供应链中的风险。使用 SCVS 开发一套共同的活动、控制和最佳实践,可以减少软件供应链中的风险,并确定成熟软件供应链警惕性的基线和路径。
OWASP API 安全项目API 安全专注于策略和解决方案,以理解和缓解应用程序编程接口(APIs)的独特漏洞和安全风险。APIs 是连接应用程序的基础元素,减轻配置错误或漏洞是保护用户和组织所必需的。用于安全测试和红队构建和生产环境。
OWASP 应用安全验证标准 ASVS应用安全验证标准(ASVS)项目为测试 Web 应用程序技术安全控制提供了基础,并为开发人员提供了安全开发的一系列要求。Web 应用程序安全要求、安全测试和指标的食谱。用于建立安全用户故事和安全用例发布测试。
OWASP 威胁和保障矩阵 (TaSM)一种面向行动的视图,以保护和支持业务。这个矩阵允许公司将其主要威胁与 NIST 网络安全框架功能(识别、保护、检测、响应和恢复)相结合,构建一个强大的安全计划。将其用作跟踪和报告组织安全状况的仪表板。
Defect Dojo一个开源漏洞管理工具,通过提供模板、报告生成、指标和基线自助工具,简化了测试过程。使用 Defect Dojo 减少记录漏洞的时间,提供常见漏洞扫描程序的模板、导入、报告生成和指标。

4.4. MITRE 资源

LLM 威胁的频繁出现强调了采取弹性优先的方法来保卫组织攻击面的价值观。现有的最佳实践(TTPS)结合了新的攻击面和能力,在LLM对手威胁和缓解措施中。MITRE 维护着一个基于现实世界观察、协调对手战术和程序的确立且广泛接受的机制。

将组织的 LLM 安全策略与 MITRE ATT&CK 和 MITRE ATLAS 进行协调和映射,可以让组织确定 LLM 安全在何处被当前流程(如 API 安全标准)所覆盖,或者在何处存在安全漏洞。

MITRE ATT&CK(对手战术、技术和常识)是由 MITRE 公司制作的一种框架、数据矩阵集合和评估工具,旨在帮助组织厘清他们的网络安全在整个数字攻击面上的工作效果,并发现以前未被发现的漏洞。它是一个知识库,被全世界使用。MITRE ATT&CK 矩阵包含了对手为了达到特定目标而使用的战略集合。在 ATT&CK 矩阵中,这些目标被分类为战术。目标按攻击顺序概述,从侦察开始,逐步发展到最终的渗透或影响目标。

MITRE ATLAS,即“人工智能系统对手威胁景观”,是基于现实世界中对机器学习(ML)系统攻击的实例、ML 红队和安全团队的演示,以及学术研究的可能状态的知识库。ATLAS 基于 MITRE ATT&CK 架构,它的战术和程序补充了 ATT&CK 中发现的那些。

资源描述推荐原因及使用地点
MITRE ATT&CK基于现实世界观察的对手战术和技术的知识库。ATT&CK 知识库用作开发特定威胁模型和方法论的基础。将组织内现有的控制措施与对手的战术和技术对应起来,以识别差距或需要测试的区域。
MITRE ATT&CK Workbench创建或扩展 ATT&CK 数据的本地知识库。托管和管理定制的 ATT&CK 知识库副本。这个本地副本可以根据您组织的特定需求,通过新增或更新技术、战术、缓解组和软件进行扩展。
MITRE ATLAS基于现实世界观察、机器学习(ML)系统红队和安全团队的演示,以及学术研究的现状,为 ML 系统对手战术、技术和案例研究的知识库。使用它来映射已知的 ML 漏洞,并为拟议项目或现有系统映射检查和控制措施。
MITRE ATT&CK Powered SuitATT&CK Powered Suit 是一个浏览器扩展,将 MITRE ATT&CK 知识库置于您的指尖。添加到您的浏览器,以便在不打断工作流程的情况下快速搜索战术、技术等。
The Threat Report ATT&CK Mapper (TRAM)自动化 CTI 报告中的 TTP 识别。将 CTI 报告中发现的 TTP 映射到 MITRE ATT&CK 是困难的、容易出错的,并且耗时的。TRAM 使用 LLM 自动化这一过程,支持 50 种最常见的技术。支持 Juypter 笔记本。
Attack Flow v2.1.0Attack Flow 是一种描述网络对手如何组合和序列各种攻击技术以实现其目标的语言。Attack Flow 有助于可视化攻击者如何使用一种技术,以便防御者和领导者理解对手的操作方式并改进他们自己的防御姿态。
MITRE Caldera设计用于轻松自动化对手仿真、协助手动红队和自动化事件响应的网络安全平台(框架)。Caldera 有可用的插件,帮助扩展框架的核心能力并提供额外的功能,包括代理、报告、收集 TTPs 等。
CALDERA 插件:Arsenal为 AI 系统对手仿真开发的插件。此插件提供在 MITRE ATLAS 中定义的 TTPs 以与 CALDERA 接口。
Atomic Red Team与 MITRE ATT&CK 框架映射的测试库。用于验证和测试环境中的控制措施。安全团队可以使用 Atomic Red Team 快速、便携、可重复地测试他们的环境。您可以从命令行直接执行原子测试;无需安装。
MITRE CTI Blueprints自动化网络威胁情报报告。CTI Blueprints 帮助网络威胁情报(CTI)分析师更一致、高效地创建高质量、可操作的报告。

4.5. AI 漏洞库

名称描述
AI 事件数据库由大学研究小组维护,收集了 AI 在现实世界应用中失败的案例的文章库,并由众包支持。
OECD AI 事件监控 (AIM)提供了一个易于理解的 AI 相关挑战的概览。
Huntr Bug Bounty针对 AI/ML 的漏洞赏金平台。
AI 漏洞数据库 (AVID)Garak - 模型漏洞数据库。
AI 风险数据库Robust Intelligence - 模型漏洞数据库。

4.6. AI 采购指南

名称描述
世界经济论坛:负责任地采用 AI:2023 年 6 月私营部门 AI 解决方案采购指南:洞察报告采购人工智能系统的标准的基准和评估标准尚处于早期开发阶段。采购指南为组织提供了端到端采购流程的考虑基线。利用这些指导方针增强组织现有的第三方风险供应商和供应商采购流程。
  • 10
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值