大模型价值观对齐的那些事

自 ChatGPT 发布和上线以来,全球各大互联网企业开始“备战”通用人工智能大模型,从 OpenAI 的 ChatGPT-4,到 Meta 的 Llama 2 ,再到百度的文言一心等等。这些模型的自主性、通用性和易用性随着模型结构的复杂和训练数据的堆积得到快速提升,大模型一跃成为推动经济社会进步的新型技术基石。人们沉浸在大模型带来的福利中,也不禁开始忧虑大模型带来的社会伦理风险和各种安全隐患。

图片

01 通用大模型的安全隐患

  • 数据安全问题:

  • ChatGPT 这类的生成式大语言模型,训练数据大部分是网络开源信息库,其生成的内容可能包含网络上私人的账户,密码或者其他隐私信息。Youtube 上有位博主手把手教大家用 ChatGPT 破解 Windows 95 CD-KEY。充分显示数据安全问题在大模型面前暴露无遗。

  • 滥用问题:

  • 由于这些模型的强大能力,一些不良意图的人可能会将其作为违法活动的工具。例如,滥用 ChatGPT 编写诈骗短信、钓鱼邮件,甚至生成恶意代码和勒索软件,而无需专业编码知识或犯罪经验。这些生成式大模型未充分考虑不同地区的法律规范,因此在使用和输出过程中可能会违反当地法规。建立强有力的本地监管体系来检测使用是否与当地法律相冲突,变得至关重要。针对安全与危险之间的模糊领域,ChatGPT 等模型的安全性尚需加强。例如,ChatGPT 可能生成诱导性语句,其中一些可能对抑郁症患者产生负面影响,甚至导致产生自杀的想法。对这些问题的解决需要进一步的技术创新和严密的安全策略。

  • 社会伦理问题:

  • 大语言模型在输出文本中存在多种类型的信息危害,如将训练数据中存在的偏见、歧视、有毒内容输出到预测文本中,在生成文本中泄露训练数据中的隐私和敏感信息,生成低质量、虚假性、误导性信息。

  • 知识产权问题:

  • 由于大部分生成内容源自网络数据的分析重构,因此这是否构成知识产权侵权,尚未可知。

对于上述问题,在 ChatGPT 等大模型被广泛关注之前,大家一直忙于提升模型性能,致力于让人工智能的效果不断实现跃迁。现如今,随着大模型“智商”的提升,人工智能的价值观对齐问题也频频被提及。

图片

02 什么是AI价值观对齐

2014年《人工智能:一种现代方法》的作者 Stuart Russell 教授,首次提出 “价值观对齐问题 (Value Alignment Problem)”。即我们构建的不是纯粹的智能,而是与人类价值观对齐的智能,并认为价值观对齐问题是人工智能内在固有的一部分,价值观对齐与人工智能的关系犹如安全壳之于核聚变反应堆。

如果用一句话概括,可以理解为 “AI 价值观对齐指的是确保 AI 系统的目标和行为与人类的价值观和意图相一致。” 虽然该概念很早就提出,但具体如何进行价值观对齐,按照什么规范对齐,至今尚未有官方定论。

03 AI 价值观对齐需要解决的问题

目前,虽没有具体的规范来规定如何实现 AI 价值观对齐,但是 Gordon Seidoh Worley [1] 汇总了一些研究人员提出的 AI 价值观对齐需要解决的问题:

  • 防止奖励滥用和游戏 (Preventing Reward Exploitation and Gaming):确保 AI 不会利用奖励函数的漏洞反复获取奖励,从而忽略真正的目标。

  • 可扩展的监督 (Scalable Supervision):在信息有限或人类难以判断的复杂任务中扩展对 AI 进行监督,即使在大型语言模型在多个任务上超越人类水平的情况下,仍能有效监控其行为。

  • 适应分布变化的稳健性 (Robustness to Distributional Shifts):确保 AI 在新领域和新环境中按预期运行,特别是在人类设计者未考虑到的情况下,避免产生破坏性后果。

  • 对抗攻击稳健性 (Robustness to Adversaries):确保 AI 对抗性攻击具有稳健性,使其对齐性不会受到攻击的破坏,例如在大语言模型中注入未对齐的指令数据,其对齐性不会受到影响。

  • 安全探索 (Safe Exploration):AI 可以在不产生危险结果的情况下探索新行为,例如,清洁机器人可以尝试使用湿抹布,但不会用湿抹布擦拭电源插座。

  • 安全中断 (Safe Interruptibility):AI 可以随时被操作员安全中断,确保 AI 不会有避免被人类中断的倾向。

  • 自我修改 (Self-modification):AI 在可修改环境中进行安全的自我修改,修改后仍与人类价值观保持一致。

  • 本体知识 (Ontology):AI 对世界进行建模,并认知自己是世界的一部分。

  • 理想决策理论和逻辑不确定性 (Idealized Decision Theory and Logical Uncertainty):即使在不确定的环境下,AI 也能做出理想化的决策。

  • 根反思 (Vingean Reflection):如何推测比人类更聪明的 AI 的行为,以确保其与人类价值观一致?此问题引发了人类是否能够在推测中保持同等智能或更高智能的理论考量。

  • 可修正性(Corrigibility):当需要修正 AI 或对其进行重新编程时,AI 应容许修正/重新编程,而不是阻止或欺骗操作员,以确保其真正地被修正/重新编程。

  • 价值观学习 (Value Learning):AI 能够学习人类的价值观。

图片

04 如何确保AI价值观对齐

首先,有效干预训练数据。

大模型的很多问题(如幻觉、算法歧视)源自训练数据,因此从训练数据入手是一种可行的方法。可以对训练数据进行记录,以识别是否存在代表性或多样性不足的问题。通过人工或自动化筛选、检测等方式,识别并消除有害偏见。还可以构建专门的价值观对齐数据集等。

其次,进行对抗测试

在模型发布之前邀请内部或外部专业人员对模型发起各种对抗攻击,以便发现潜在问题并进行解决。例如,在发布 GPT-4 之前,OpenAI 聘请了50多位跨领域的学者和专家,对其模型进行测试。这些红队测试员的任务是向模型提出试探性或危险性的问题,以测试模型的反应。

再者,采用内容过滤工具。

OpenAI 专门训练了一个用于过滤有害内容的AI模型,以识别有害的用户输入和模型输出(即违反其使用政策的内容),从而实现对模型输入和输出数据的控制。最后,大力推进模型的可解释性和可理解性研究。

在 AI 的安全隐患中,训练过程中脏数据的污染和误导,是 AI 大模型有偏见,带歧视和生成低质量内容的核心原因。因此在训练过程中对数据的筛选和清洗是至关重要的。海天瑞声作为全球领先的训练数据提供商,具有专业的数据团队,为大模型的训练提供高质量数据。

参考文献

[1] https://www.lesswrong.com/users/gordon-seidoh-worley

[2] https://zhuanlan.zhihu.com/p/643161870

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值