大模型价值观对齐的那些事

最新推荐文章于 2024-09-09 20:09:59 发布

海天瑞声AI

最新推荐文章于 2024-09-09 20:09:59 发布

阅读量680

点赞数

文章标签：人工智能机器学习 ai nlp 自然语言处理语言模型

本文链接：https://blog.csdn.net/Speechocean/article/details/132695720

版权

自 ChatGPT 发布和上线以来，全球各大互联网企业开始“备战”通用人工智能大模型，从 OpenAI 的 ChatGPT-4，到 Meta 的 Llama 2 ，再到百度的文言一心等等。这些模型的自主性、通用性和易用性随着模型结构的复杂和训练数据的堆积得到快速提升，大模型一跃成为推动经济社会进步的新型技术基石。人们沉浸在大模型带来的福利中，也不禁开始忧虑大模型带来的社会伦理风险和各种安全隐患。

01 通用大模型的安全隐患

数据安全问题：
ChatGPT 这类的生成式大语言模型，训练数据大部分是网络开源信息库，其生成的内容可能包含网络上私人的账户，密码或者其他隐私信息。Youtube 上有位博主手把手教大家用 ChatGPT 破解 Windows 95 CD-KEY。充分显示数据安全问题在大模型面前暴露无遗。
滥用问题：
由于这些模型的强大能力，一些不良意图的人可能会将其作为违法活动的工具。例如，滥用 ChatGPT 编写诈骗短信、钓鱼邮件，甚至生成恶意代码和勒索软件，而无需专业编码知识或犯罪经验。这些生成式大模型未充分考虑不同地区的法律规范，因此在使用和输出过程中可能会违反当地法规。建立强有力的本地监管体系来检测使用是否与当地法律相冲突，变得至关重要。针对安全与危险之间的模糊领域，ChatGPT 等模型的安全性尚需加强。例如，ChatGPT 可能生成诱导性语句，其中一些可能对抑郁症患者产生负面影响，甚至导致产生自杀的想法。对这些问题的解决需要进一步的技术创新和严密的安全策略。
社会伦理问题：
大语言模型在输出文本中存在多种类型的信息危害，如将训练数据中存在的偏见、歧视、有毒内容输出到预测文本中，在生成文本中泄露训练数据中的隐私和敏感信息，生成低质量、虚假性、误导性信息。
知识产权问题：
由于大部分生成内容源自网络数据的分析重构，因此这是否构成知识产权侵权，尚未可知。

对于上述问题，在 ChatGPT 等大模型被广泛关注之前，大家一直忙于提升模型性能，致力于让人工智能的效果不断实现跃迁。现如今，随着大模型“智商”的提升，人工智能的价值观对齐问题也频频被提及。

02 什么是AI价值观对齐

2014年《人工智能：一种现代方法》的作者 Stuart Russell 教授，首次提出 “价值观对齐问题 (Value Alignment Problem)”。即我们构建的不是纯粹的智能，而是与人类价值观对齐的智能，并认为价值观对齐问题是人工智能内在固有的一部分，价值观对齐与人工智能的关系犹如安全壳之于核聚变反应堆。

如果用一句话概括，可以理解为 “AI 价值观对齐指的是确保 AI 系统的目标和行为与人类的价值观和意图相一致。” 虽然该概念很早就提出，但具体如何进行价值观对齐，按照什么规范对齐，至今尚未有官方定论。

03 AI 价值观对齐需要解决的问题

目前，虽没有具体的规范来规定如何实现 AI 价值观对齐，但是 Gordon Seidoh Worley [1] 汇总了一些研究人员提出的 AI 价值观对齐需要解决的问题：

防止奖励滥用和游戏 (Preventing Reward Exploitation and Gaming)：确保 AI 不会利用奖励函数的漏洞反复获取奖励，从而忽略真正的目标。
可扩展的监督 (Scalable Supervision)：在信息有限或人类难以判断的复杂任务中扩展对 AI 进行监督，即使在大型语言模型在多个任务上超越人类水平的情况下，仍能有效监控其行为。
适应分布变化的稳健性 (Robustness to Distributional Shifts)：确保 AI 在新领域和新环境中按预期运行，特别是在人类设计者未考虑到的情况下，避免产生破坏性后果。
对抗攻击稳健性 (Robustness to Adversaries)：确保 AI 对抗性攻击具有稳健性，使其对齐性不会受到攻击的破坏，例如在大语言模型中注入未对齐的指令数据，其对齐性不会受到影响。
安全探索 (Safe Exploration)：AI 可以在不产生危险结果的情况下探索新行为，例如，清洁机器人可以尝试使用湿抹布，但不会用湿抹布擦拭电源插座。
安全中断 (Safe Interruptibility)：AI 可以随时被操作员安全中断，确保 AI 不会有避免被人类中断的倾向。
自我修改 (Self-modification)：AI 在可修改环境中进行安全的自我修改，修改后仍与人类价值观保持一致。
本体知识 (Ontology)：AI 对世界进行建模，并认知自己是世界的一部分。
理想决策理论和逻辑不确定性 (Idealized Decision Theory and Logical Uncertainty)：即使在不确定的环境下，AI 也能做出理想化的决策。
维根反思 (Vingean Reflection)：如何推测比人类更聪明的 AI 的行为，以确保其与人类价值观一致？此问题引发了人类是否能够在推测中保持同等智能或更高智能的理论考量。
可修正性(Corrigibility)：当需要修正 AI 或对其进行重新编程时，AI 应容许修正/重新编程，而不是阻止或欺骗操作员，以确保其真正地被修正/重新编程。
价值观学习 (Value Learning)：AI 能够学习人类的价值观。