大模型学习笔记09——大模型的有害性
大模型的有害性主要包括
- 性能差异
- 社会偏见和刻板印象
- 有害信息
- 虚假信息
- 安全和隐私风险
- 版权和法律保护
- 环境影响
- 权利集中
性能差异相关的危害
- 对于特定任务,LLM的表现会在不同的人群中产生不同的效果
- 反馈循环,当系统对某些用户无法正常工作,就不会使用这些系统,并且生成的数据更少,从而导致未来的兄表现更大的差异
社会偏见和刻板印象相关的危害
作为LLM学习的数据中存在的社会偏见和刻板印象,会在LLM输出中得到体现
有毒性
粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话
内容审查:与有害内容的问题在现实世界中的对应(独立于语言模型)。毒性是依赖于上下文的,需要考虑的是人而不仅仅是文本。语言模型即使在非有毒提示的情况下也容易生成有毒内容。减轻毒性只能部分有效,并且可能有其他负面影响(对边缘化群体产生负面偏见)。
虚假信息
虚假信息需要满足以下条件:新颖(避免被基于哈希的内容审核系统检测),通顺(被目标受众易读),有说服力(被目标受众所信),并传达虚假信息战役的信息。当前的虚假信息创造过程既昂贵又慢(如俄罗斯需要懂英语的人)。未来,恶意行为者可能会更多地使用AI来进行虚假信息的创造(例如,普京在2017年曾表示:“人工智能是未来,不仅是俄罗斯的未来,也是全人类的未来”)。