Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning

本文是LLM系列文章,针对《Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning》的翻译。

摘要

最近的监管举措,如《欧洲人工智能法案》和机器学习(ML)社区的相关声音强调,需要沿着几个关键维度描述数据集,以获得值得信赖的人工智能,例如来源过程和社会问题。然而,这些信息通常在随附文档中以非结构化文本的形式呈现,阻碍了它们的自动分析和处理。在这项工作中,我们探索了使用大型语言模型(LLM)和一组提示策略来自动从文档中提取这些维度,并用它们丰富数据集描述。我们的方法可以帮助数据发布者和从业者创建机器可读文档,以提高其数据集的可发现性,评估其是否符合当前的人工智能法规,并提高在其上训练的机器学习模型的整体质量。
在这篇论文中,我们使用两种不同的LLM(GPT3.5和Flan-UL2)对发表在两种科学期刊(Nature’s scientific Data和Elsevier’s Data In Brief)上的12篇科学数据集论文进行了评估。结果表明,我们的提示提取策略具有良好的准确性。具体结果因尺寸而异,但总体而言,GPT3.5的准确率(81.21%)略高于FLAN-UL2(69.13%),尽管它更容易产生幻觉。我们已经发布了一个开源工具,实现了我们的方法,并在一个开源存储库中发布了复制包,包括实验的代码和结果。

1 引言

2 背景:数据集文档指南

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值