数据透明度:大型语言模型训练的隐患
MIT 的一项最新研究揭示,用于训练大型语言模型(LLM)的数据集普遍缺乏透明度,这可能导致模型准确性下降,甚至产生偏见。
为了训练更强大的 LLM,研究人员通常会使用庞大的数据集,这些数据集融合了来自数千个网络来源的不同数据。然而,随着这些数据集被组合和重组,有关其来源和使用限制的重要信息往往会丢失或混淆。
研究发现,超过 70% 的数据集缺少许可信息,约 50% 的数据集信息存在错误。 这不仅会引发法律和道德问题,还会损害模型的性能。例如,如果数据集被错误分类,那么为特定任务训练机器学习模型的人最 终可能会在不知不觉中使用并非为此任务设计的数据。此外,来自未知来源的数据可能包含偏见,导致模型在部署时做出不公平的预测。
为了解决这个问题,MIT 的研究人员开发了一个名为“数据来源浏览器”(Data Provenance Explorer)的用户友好型工具。该工具可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。
“数据来源浏览器”可以帮助 AI 从业者选择适合其模型预期用途的训练数据集,从而构建更有效的模型。 从长远来看,这可以提高 AI 模型在现实世界情况下的准确性,例如用于评估贷款申请或响应客户查询 的模型。
研究人员还呼吁在创建和发布数据集时就注重数据来源和透明度,以便其他人更容易获得这些信息。 他们认为,数据来源的透明度对于负责任地开发和部署 AI 至关重要。
这项研究的意义在于