Amazon Bedrock 防护栏现已推出新的安全过滤器和隐私控制功能


今天,我很高兴宣布Amazon Bedrock 防护栏正式上线,这项功能于2023年亚马逊云科技再来:Invent大会期间首次推出预览版。使用Amazon Bedrock 防护栏,您可以根据自身使用场景和负责任AI政策,为生成式人工智能(生成式AI)应用程序实施保护措施。您可以创建多个定制的防护栏,用于不同的使用场景,并在多个基础模型(FM)之间应用,从而改善最终用户体验,并在生成式AI应用程序中标准化安全控制。您可以在Amazon Bedrock中的所有大型语言模型(LLM)上使用Amazon Bedrock 防护栏,包括经过微调的模型。

Bedrock 防护栏在基础模型原生功能的基础上提供了行业领先的安全防护,可帮助客户比今天Amazon Bedrock上某些基础模型原生提供的防护多阻止高达85%有害内容。Amazon Bedrock 防护栏是顶级云供应商中唯一一款可让客户在单一解决方案中为其生成式AI应用程序构建和定制安全与隐私保护的负责任AI功能,并且它适用于Amazon Bedrock中的所有大型语言模型(LLM)以及经过微调的模型。

Aha!是一家软件公司,为超过100万人提供将产品战略付诸实践的服务。Aha!联合创始人兼首席技术官 Chris Waters 博士表示:“我们的客户每天都依赖我们来设定目标、收集客户反馈,并创建可视化路线图。这就是为什么我们使用Amazon Bedrock来实现许多生成式AI功能的原因。Amazon Bedrock提供负责任AI特性,使我们能够通过其数据保护和隐私政策来完全控制我们的信息,并通过Bedrock防护栏来阻止有害内容。我们仅此而已,即通过分析客户提交的反馈,帮助产品经理发现洞见。这只是个开始,我们将继续建立在先进的亚马逊云科技技术之上,借以帮助全球各地的产品开发团队信心十足地优先考虑接下来要构建的内容。”

在预览文章 中,Antje向您展示了如何使用防护栏来配置阈值,以过滤各种有害类别的内容,并定义一组在您的应用程序环境中需要避免的主题。内容过滤器现在新增了两个安全类别:不当行为(用于检测犯罪活动)和提示攻击(用于检测提示注入和逃脱尝试)。我们还添加了一些重要的新功能,包括敏感信息过滤器(用于检测和编辑个人身份信息PII)和词汇过滤器(用于阻止包含亵渎和自定义词语的输入,例如有害词语、竞争对手名称和产品)。

Amazon Bedrock 防护栏位于应用程序和模型之间。防护栏会自动评估从应用程序传入模型和从模型传出应用程序的所有内容,以检测并帮助防止落入受限类别的内容。

您可以回顾预览版发布博客中的步骤,了解如何配置禁止主题内容过滤器。接下来我将演示新功能的工作原理。

新功能 要开始使用Amazon Bedrock 防护栏,我进入亚马逊云科技 管理控制台的Amazon Bedrock部分,在这里我可以创建防护栏并配置新功能。在Amazon Bedrock控制台的导航窗格中,我选择防护栏,然后选择创建防护栏

我输入防护栏的名称描述。我选择下一步进入添加敏感信息过滤器步骤。

1c09c00e8593c3157d301eab5c606bd9.jpeg

我使用敏感信息过滤器来检测用户输入和FM输出中的敏感和私人信息。根据使用场景,我可以选择一组实体,在输入时阻止(例如基于常见问题的聊天机器人不需要用户特定信息)或在输出时编辑(例如基于聊天记录的对话总结)。敏感信息过滤器支持一组预定义的PII类型。我还可以根据特定使用场景和需求定义基于正则表达式的自定义实体。

我从列表中添加两种PII类型(姓名、电子邮件),并使用订单ID作为名称,使用[0-9a-fA-F]{8}作为正则表达式模式添加一个正则表达式模式。

ee97620e58031e2294a3d09b7d2fd45e.jpeg

我选择下一步,并在定义阻止信息步骤中输入自定义信息,当我的防护栏阻止输入或模型响应时,将显示这些信息。我在最后一步审核配置,然后选择创建防护栏

我导航至防护栏概览页面,并使用测试部分选择Anthropic Claude Instant 1.2模型。我在提示字段中输入以下呼叫中心记录,然后选择运行

请总结以下呼叫中心记录。将姓名、电子邮件和订单ID放在顶部: 客服: 欢迎致电ABC公司。我能为您做些什么吗? 客户: 我想取消酒店预订。 客服: 好的,我可以帮您办理取消手续。请告诉我您的预订号码。 客户: 好的,我的预订号码是550e8408。 客服: 谢谢。为确认信息,请问可以告诉我您的姓名和电子邮件吗? 客户: 我的名字是Jane Doe,我的电子邮件是jane.doe@gmail.com 客服: 谢谢确认。我将为您取消预订。

83f3bbc10bbe587922ab09ac4b2c6fe5.jpeg

防护栏动作显示防护栏生效了三次。我使用查看追踪检查详细信息。我注意到防护栏检测到姓名电子邮件订单ID,并在最终响应中将它们屏蔽。

10607a5a83510b29610844c1940c8ba1.jpeg

我使用词汇过滤器阻止包含亵渎和自定义词语的输入(例如竞争对手名称或冒犯性词语)。我勾选过滤亵渎框。亵渎词语列表基于亵渎的全球定义。此外,我还可以指定最多10,000个短语(每个短语最多三个单词),由防护栏阻止。如果我的输入或模型响应包含这些词语或短语,将显示阻止信息。

现在,我在词汇过滤器下选择自定义词语和短语,然后选择编辑。我使用手动添加词语和短语添加自定义词语CompetitorY。或者,如果我需要上传一串短语,可以使用从本地文件上传从S3对象上传。我选择保存并退出返回到我的防护栏页面。

fc6e324385feb13a29636033d95c0574.jpeg

我输入一个包含关于虚构公司及其竞争对手信息的提示,并添加问题CompetitorY提供了哪些额外功能?。我选择运行

c1cca3ec794075382d254e051287be45.jpeg

我使用查看追踪检查详细信息。我注意到防护栏根据我配置的策略进行了干预。

8cb304ae2298556248a274e599635a05.jpeg

现已推出 Amazon Bedrock防护栏现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈州)地区上线。

有关定价信息,请访问Amazon Bedrock定价页面。

要开始使用此功能,请访问Amazon Bedrock 防护栏网页。

如需深入技术内容,并了解我们的构建者社区如何在解决方案中使用Amazon Bedrock,请访问我们的community.aws网站。

— Esra

68b94305531705a73808b3dbb65d5d94.jpeg

Esra Kayabali

Esra Kayabali是亚马逊云科技的一名高级解决方案架构师,专门从事分析领域,包括数据仓库、数据湖、大数据分析、批处理和实时数据流以及数据集成。她在软件开发和解决方案架构方面拥有超过10年的经验。她对协作学习、知识共享以及指导社区探索云技术充满热情。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值