为防止生成式AI的幻觉与偏见，需整合制衡机制

AI智东西

于 2024-08-20 17:23:03 发布

阅读量494

点赞数 20

文章标签：人工智能大数据

本文链接：https://blog.csdn.net/2401_86743293/article/details/141363813

版权

训练数据的质量、数量和多样性对生成式AI（GenAI）模型的性能有着巨大的影响。模型架构、训练技术和所解决问题的复杂性等因素也起着重要作用。然而，领先的模型开发者们都在聚焦于数据的质量、深度与多样性，认为这些是决定AI模型性能的最大因素，也是驱动下一轮改进的最大机遇。

微软研究人员解释了最新Phi语言模型性能快速提升的原因，称其创新“完全在于我们用于训练的数据集”。该公司的Phi-3模型训练所包含的数据比以前的模型更多。我们在Meta的Llama 3模型使用15T标记数据集时也看到了类似的发展。然而，微软还强调了“经过严格筛选的网络数据”的好处。当不准确性和偏见嵌入训练数据时，AI驱动的解决方案更有可能产生与现实不符的输出，并带来加剧偏见风险的潜在影响。因此，数据质量和数据管理至关重要。

不仅仅是完成检验清单上的项目

为了减轻不准确或有偏见输出的风险，组织应利用高质量和多样化的数据集，这些数据集经过过滤和策展，以符合其需求、企业价值和治理框架。这涉及到人类利用他们的优势，生成和分类长尾信息，而机器则在大规模数据过滤和策展方面表现出色。人类在开发和分类准确代表AI所服务的人群和场景的训练数据集时尤为重要，而机器则在泛化方面表现优异。这种组合构成了高性能大语言模型（LLM）的基础。随着多模态模型的普及，这一点将变得更加重要。

但开发者们不能止步于此。其他几项最佳实践包括微调和持续监控性能指标、用户反馈和系统日志。这些步骤对于检测和减轻幻觉和偏见的出现也至关重要。这一点尤为重要，因为AI系统通过应用用户数据不断发展，以提高性能和一致性。

(Lightspring/Shutterstock)

解决许多这些挑战的方法超越了检查清单。企业应在其AI技术栈中采用一个由坚实的治理框架支持的制衡体系。这通过提高员工意识和业务采纳来进一步增强，以确保他们促进的互动是无偏见和有害内容的，并且是可靠和准确的。

采用偏见检测和减轻实践

从本质上讲，如果你的训练数据集太小或质量太低，你的LLM将延续和放大偏见和不准确性。这可能对个人造成重大危害。特别是少数族裔和边缘化社区，如少数民族、LGBTQ+个人、残疾人和移民等风险尤为突出。这种现象在法律、教育、就业、金融和医疗等领域最具破坏性。因此，在评估GenAI应用表现、进行监督微调（SFT）和从事提示调优时，组织必须雇佣人在环（HITL）以正确指导AI模型的活动。

AI模型训练中的一个关键技术是通过人类反馈进行强化学习（RLHF）。由于AI模型缺乏对语言和语境的细致理解，RLHF将人类的现实经验引入训练过程。例如，RLHF可以训练GenAI指导模型响应以符合品牌偏好或社会文化规范。这对于在多个全球市场运营的公司尤其重要，因为理解（和遵守）文化细微差别可以决定成败。

但这不仅仅是关于包含HITL。成功还依赖于正确招聘具有独特经验和多样性的合格人员来创建、收集、注释和验证数据以进行严格的数据质量控制。这种方法提供了更高质量和风险缓解的双重利益。

考虑一个医疗保健的例子。LLM可以迅速分析文本和图像数据，如电子健康记录、放射报告、医学文献和患者信息，以提取见解、做出预测并协助临床决策。然而，如果所使用的训练数据不够多样化或数量不足，某些偏见将会出现。如果医学专家未被包括在数据和应用输出审查过程中，这种情况可能加剧。这就是风险所在。如果不能准确识别疾病并考虑患者群体之间的差异，可能会导致误诊和不当治疗。

实施系统技术

生成式AI解决方案正在迅速普及。这意味着在所有行业中对准确和具有代表性的数据需求比以往任何时候都更为重要。事实上，TELUS International的一项调查发现，40%的受访者认为公司需要做更多工作来保护用户免受偏见和虚假信息的侵害，77%希望品牌在整合GenAI技术之前审计其算法以减轻偏见和偏颇。

(Macrovector/Shutterstock)

为了防止偏见进入LLM开发的最早阶段，品牌可以在整个开发生命周期中实施一种多方面的方法。除了多样化的数据收集外，实施偏见检测工具、HITL审核和持续监控与迭代，品牌还可以在训练中结合对抗性示例，以进一步增强平台检测异常情况和作出适当响应的能力。

例如，我们最近采取了一种方法，将对抗性示例整合到训练一个用于检索增强生成（RAG）平台的双LLM安全系统中。该系统使用一个次级LLM，即监督LLM，根据自定义用户体验指南对输出进行分类，引入了一个额外的制衡层，以确保准确性并从一开始就减轻偏见。

构建层次以减轻GenAI系统中的偏见

除了上述策略和实践外，品牌还可以采用数据匿名化和数据增强等技术来帮助进一步识别潜在的偏见或不准确性，并减少其对GenAI系统输出的影响。

数据匿名化涉及隐藏或去除数据集中可识别个人的信息（PII），以保护个人隐私。通过匿名化数据，系统无法访问关于个人身份的明确信息，从而减少了与种族、性别或年龄等人口特征相关的偏见。这反过来又降低了基于此类属性做出偏见决策或预测的风险。

除此之外，像防护措施和监督LLM这样的工具可以主动识别和解决问题。这些工具可以让公司在问题出现时编辑或重写有问题的响应，并将其记录以用于后续的模型训练。

数据增强涉及通过创建新的合成示例来扩展训练数据集，以增加代表性不足群体和观点的代表性。例如，这可以包括在文本数据集中改述句子或替换同义词，或在图像数据集中缩放、裁剪和旋转图像。通过这些技术，系统从更广泛的数据中学习，从而变得更加健壮，减轻由倾斜或有限数据集引起的偏见。将这些技术整合到数据预处理管道中，可以帮助构建更具包容性和公平性的GenAI系统。

保持人类在环

虽然当前的GenAI模型无法完全免于幻觉或偏见，但企业领导者必须在整个组织中嵌入伦理AI实践，并投资于偏见减轻举措，借助技术的持续发展来保护其业务和最终用户，并负责任地推进GenAI的采纳。

AI智东西

关注

20
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
为防止生成式AI的幻觉与偏见，需整合制衡机制

该公司的Phi-3模型训练所包含的数据比以前的模型更多。为了减轻不准确或有偏见输出的风险，组织应利用高质量和多样化的数据集，这些数据集经过过滤和策展，以符合其需求、企业价值和治理框架。然而，领先的模型开发者们都在聚焦于数据的质量、深度与多样性，认为这些是决定AI模型性能的最大因素，也是驱动下一轮改进的最大机遇。虽然当前的GenAI模型无法完全免于幻觉或偏见，但企业领导者必须在整个组织中嵌入伦理AI实践，并投资于偏见减轻举措，借助技术的持续发展来保护其业务和最终用户，并负责任地推进GenAI的采纳。
复制链接

扫一扫