NeMo Guardrails模型护栏

DK_Allen

于 2025-03-31 09:29:21 发布

阅读量5.9w

点赞数 24

分类专栏：大模型文章标签： microsoft AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DK_Allen/article/details/146799384

版权

NeMo Guardrails是什么?

这个新工具名叫“护栏技术”（NeMo Guardrails），相当于给大模型加上一堵安全围墙，既能控制它的输出、又能过滤输入它的内容。

一方面，用户诱导大模型生成攻击性代码、输出不道德内容的时候，它就会被护栏技术“束缚”，不再输出不安全的内容。另一方面，护栏技术还能保护大模型不受用户的攻击，帮它挡住来自外界的“恶意输入”。

目前NeMo Guardrails一共提供三种形式的护栏技术：

话题限定护栏（topical guardrails）、对话安全护栏（safety guardrails）和攻击防御护栏（security guardrails）。

主题限定护栏

简单来说就是“防止大模型跑题”，确保问答与主题相关。大模型具备更丰富的想象力，相比其他AI更容易完成创造性的代码和文字编写工作。但对于特定场景应用如写代码、当客服而言，至少用户不希望它在解决问题时“脱离目标范围”，生成一些与需求无关的内容。这种情况下就需要用到话题限定护栏，当大模型生成超出话题范围的文字或代码时，护栏就会将它引导回限定的功能和话题上。

对话安全护栏

确保问答内容可控（不胡编乱造），避免大模型输出时“胡言乱语”，胡言乱语包括两方面的情况。一方面是大模型生成的答案中包括事实性错误，即“听起来很有道理，但其实完全不对”的东西；另一方面是大模型生成带偏见、恶意的输出，如在用户引导下说脏话、或是生成不道德的内容。

攻击防御护栏

保护问答不被攻击或误用。这里不仅包括诱导大模型调用外部病毒APP从而攻击它，也包括黑客主动通过网络、恶意程序等方式攻击大模型。护栏会通过各种方式防止这些攻击，避免大模型瘫痪。

如何打造一个大模型“护栏”？

“护栏”三要素包括格式规范（Canonical form）、消息（Messages）和交互流（Flows）。

格式规范，即面对不同问题的问法时，规定大模型要输出的内容。例如被问到“XX文章是什么”，大模型必须给出特定类型的“文章”，而非别的东西；被问到“谁发表了什么”，大模型必须给出“人名”，而非别的回答。
消息定义。消息通过生成规范形式（使用自然语言的轻量级表示）来作为对用户意图进行分类的便捷方法。然后，这些消息被索引并存储在内存向量存储中。激活后，系统会从向量存储中检索前 N 个最相似的消息，并将它们发送到 LLM 以生成相似的规范形式。
交互流定义。例如告诉大模型，怎么才是问候用户的最好方式。

具体工作流程如下：首先，将用户输入转换成某种格式规范（canonical form），据此生成对应的护栏；随后，生成行动步骤，以交互流指示大模型一步步完成对应的操作；最后，根据格式规范生成输出。

安装使用

安装

设置

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。