[240906] 数据透明度:大型语言模型训练的隐患 | Debian 12.7 发布,安全更新和重要修复一览

数据透明度:大型语言模型训练的隐患

MIT 的一项最新研究揭示,用于训练大型语言模型(LLM)的数据集普遍缺乏透明度,这可能导致模型准确性下降,甚至产生偏见。

为了训练更强大的 LLM,研究人员通常会使用庞大的数据集,这些数据集融合了来自数千个网络来源的不同数据。然而,随着这些数据集被组合和重组,有关其来源和使用限制的重要信息往往会丢失或混淆。

研究发现,超过 70% 的数据集缺少许可信息,约 50% 的数据集信息存在错误。 这不仅会引发法律和道德问题,还会损害模型的性能。例如,如果数据集被错误分类,那么为特定任务训练机器学习模型的人最 终可能会在不知不觉中使用并非为此任务设计的数据。此外,来自未知来源的数据可能包含偏见,导致模型在部署时做出不公平的预测。

为了解决这个问题,MIT 的研究人员开发了一个名为“数据来源浏览器”(Data Provenance Explorer)的用户友好型工具。该工具可以自动生成易于阅读的数据集创建者、来源、许可证和允许用途的摘要。

“数据来源浏览器”可以帮助 AI 从业者选择适合其模型预期用途的训练数据集,从而构建更有效的模型。 从长远来看,这可以提高 AI 模型在现实世界情况下的准确性,例如用于评估贷款申请或响应客户查询 的模型。

研究人员还呼吁在创建和发布数据集时就注重数据来源和透明度,以便其他人更容易获得这些信息。 他们认为,数据来源的透明度对于负责任地开发和部署 AI 至关重要。

这项研究的意义在于࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值