大模型可信与可控

最新推荐文章于 2024-07-22 21:21:48 发布

u013250861

最新推荐文章于 2024-07-22 21:21:48 发布

阅读量156

点赞数

分类专栏： LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/132149764

版权

LLM 专栏收录该内容

108 篇文章 223 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

世界人工智能大会（WAIC）今天在上海开幕，得到了全球创业者、学者和政府的关注。与此同时，OpenAI 今天也宣布组建新的团队，以开发引导和控制 “超级智能”。大模型安全一直是绿洲关注的重要方向之一，也就此领域在全球范围内访谈了很多学者。我们结合前沿学术论文观点和众多访谈，梳理了上下两篇围绕安全主题的文章，这是第一篇，希望帮助大家理解如何使大模型生成的内容更可信并且可控。Enjoy

Part I：两大流派

关于增强 LLM 的可信与可控性，目前学术界有两大流派：

1. 端到端会话模型（E2E Conversational Model）：基于对模型自身的提升

2. 基于管道的会话模型（Pipline-based System）：基于对用户输入以及输出的控制

I. 端到端会话模型

通过优化端到端对话模型，是学术界关于提高安全性最关注的方向。这个方向的发展在很大程度上依赖于受控文本生成技术的发展，其中可控性可以被视为对话响应生成中的一个重要属性。这个方向的提升一般从预处理、训练、推理三个主要阶段着手。

1. 数据预处理

LLM 模型的响应内容主要依赖于其训练语料库，因此预处理阶段去除不安全数据、将安全数据添加到训练语料库中，可以直接有效地对对话系统的最终行为产生重大影响。OpenAI 的 GPT 系列模型在训练中使用了大量的文本数据

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大模型可信与可控

2. AI 安全（监控、规则自学习、对抗测试等）是一个值得 bet on 的方向3. 控制语言模型诸如 GeDi、Diffusion-LM 值得关注4. 由于 RLHF 的成功，类似的通过强化学习降低毒性的 RLAIF 也是一种值得关注的方向5. 多模态模型由于多种形态的数据注入会导致更大的安全以及不可控隐患百度安全验证。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。