Amazon Bedrock 防护栏现已推出新的安全过滤器和隐私控制功能

最新推荐文章于 2024-10-16 18:54:17 发布

2401_84209581

最新推荐文章于 2024-10-16 18:54:17 发布

阅读量873

点赞数 12

文章标签：云计算

本文链接：https://blog.csdn.net/2401_84209581/article/details/138244783

版权

今天，我很高兴宣布Amazon Bedrock 防护栏正式上线，这项功能于2023年亚马逊云科技再来:Invent大会期间首次推出预览版。使用Amazon Bedrock 防护栏，您可以根据自身使用场景和负责任AI政策，为生成式人工智能(生成式AI)应用程序实施保护措施。您可以创建多个定制的防护栏，用于不同的使用场景，并在多个基础模型(FM)之间应用，从而改善最终用户体验，并在生成式AI应用程序中标准化安全控制。您可以在Amazon Bedrock中的所有大型语言模型(LLM)上使用Amazon Bedrock 防护栏，包括经过微调的模型。

Bedrock 防护栏在基础模型原生功能的基础上提供了行业领先的安全防护，可帮助客户比今天Amazon Bedrock上某些基础模型原生提供的防护多阻止高达85%有害内容。Amazon Bedrock 防护栏是顶级云供应商中唯一一款可让客户在单一解决方案中为其生成式AI应用程序构建和定制安全与隐私保护的负责任AI功能，并且它适用于Amazon Bedrock中的所有大型语言模型(LLM)以及经过微调的模型。

Aha!是一家软件公司，为超过100万人提供将产品战略付诸实践的服务。Aha!联合创始人兼首席技术官 Chris Waters 博士表示:“我们的客户每天都依赖我们来设定目标、收集客户反馈，并创建可视化路线图。这就是为什么我们使用Amazon Bedrock来实现许多生成式AI功能的原因。Amazon Bedrock提供负责任AI特性，使我们能够通过其数据保护和隐私政策来完全控制我们的信息，并通过Bedrock防护栏来阻止有害内容。我们仅此而已，即通过分析客户提交的反馈，帮助产品经理发现洞见。这只是个开始，我们将继续建立在先进的亚马逊云科技技术之上，借以帮助全球各地的产品开发团队信心十足地优先考虑接下来要构建的内容。”

在预览文章中，Antje向您展示了如何使用防护栏来配置阈值，以过滤各种有害类别的内容，并定义一组在您的应用程序环境中需要避免的主题。内容过滤器现在新增了两个安全类别:不当行为(用于检测犯罪活动)和提示攻击(用于检测提示注入和逃脱尝试)。我们还添加了一些重要的新功能，包括敏感信息过滤器(用于检测和编辑个人身份信息PII)和词汇过滤器(用于阻止包含亵渎和自定义词语的输入，例如有害词语、竞争对手名称和产品)。

Amazon Bedrock 防护栏位于应用程序和模型之间。防护栏会自动评估从应用程序传入模型和从模型传出应用程序的所有内容，以检测并帮助防止落入受限类别的内容。

您可以回顾预览版发布博客中的步骤，了解如何配置禁止主题和内容过滤器。接下来我将演示新功能的工作原理。

新功能 要开始使用Amazon Bedrock 防护栏，我进入亚马逊云科技管理控制台的Amazon Bedrock部分，在这里我可以创建防护栏并配置新功能。在Amazon Bedrock控制台的导航窗格中，我选择防护栏，然后选择创建防护栏。

我输入防护栏的名称和描述。我选择下一步进入添加敏感信息过滤器步骤。

我使用敏感信息过滤器来检测用户输入和FM输出中的敏感和私人信息。根据使用场景，我可以选择一组实体，在输入时阻止(例如基于常见问题的聊天机器人不需要用户特定信息)或在输出时编辑(例如基于聊天记录的对话总结)。敏感信息过滤器支持一组预定义的PII类型。我还可以根据特定使用场景和需求定义基于正则表达式的自定义实体。

我从列表中添加两种PII类型(姓名、电子邮件)，并使用订单ID作为名称，使用[0-9a-fA-F]{8}作为正则表达式模式添加一个正则表达式模式。

我选择下一步，并在定义阻止信息步骤中输入自定义信息，当我的防护栏阻止输入或模型响应时，将显示这些信息。我在最后一步审核配置，然后选择创建防护栏。

我导航至防护栏概览页面，并使用测试部分选择Anthropic Claude Instant 1.2模型。我在提示字段中输入以下呼叫中心记录，然后选择运行。

请总结以下呼叫中心记录。将姓名、电子邮件和订单ID放在顶部: 客服: 欢迎致电ABC公司。我能为您做些什么吗? 客户: 我想取消酒店预订。客服: 好的，我可以帮您办理取消手续。请告诉我您的预订号码。客户: 好的，我的预订号码是550e8408。客服: 谢谢。为确认信息，请问可以告诉我您的姓名和电子邮件吗? 客户: 我的名字是Jane Doe，我的电子邮件是jane.doe@gmail.com 客服: 谢谢确认。我将为您取消预订。