Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning

UnknownBody

于 2024-08-14 10:08:43 发布

阅读量2

点赞数

分类专栏： LLM Daily 文章标签：语言模型机器学习人工智能

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141182644

版权

LLM Daily 专栏收录该内容

179 篇文章 3 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning》的翻译。

摘要

最近的监管举措，如《欧洲人工智能法案》和机器学习（ML）社区的相关声音强调，需要沿着几个关键维度描述数据集，以获得值得信赖的人工智能，例如来源过程和社会问题。然而，这些信息通常在随附文档中以非结构化文本的形式呈现，阻碍了它们的自动分析和处理。在这项工作中，我们探索了使用大型语言模型（LLM）和一组提示策略来自动从文档中提取这些维度，并用它们丰富数据集描述。我们的方法可以帮助数据发布者和从业者创建机器可读文档，以提高其数据集的可发现性，评估其是否符合当前的人工智能法规，并提高在其上训练的机器学习模型的整体质量。
在这篇论文中，我们使用两种不同的LLM（GPT3.5和Flan-UL2）对发表在两种科学期刊（Nature’s scientific Data和Elsevier’s Data In Brief）上的12篇科学数据集论文进行了评估。结果表明，我们的提示提取策略具有良好的准确性。具体结果因尺寸而异，但总体而言，GPT3.5的准确率（81.21%）略高于FLAN-UL2（69.13%），尽管它更容易产生幻觉。我们已经发布了一个开源工具，实现了我们的方法，并在一个开源存储库中发布了复制包，包括实验的代码和结果。

1 引言

2 背景：数据集文档指南

了解本专栏

超级会员免费看

UnknownBody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning

最近的监管举措，如《欧洲人工智能法案》和机器学习（ML）社区的相关声音强调，需要沿着几个关键维度描述数据集，以获得值得信赖的人工智能，例如来源过程和社会问题。然而，这些信息通常在随附文档中以非结构化文本的形式呈现，阻碍了它们的自动分析和处理。在这项工作中，我们探索了使用大型语言模型（LLM）和一组提示策略来自动从文档中提取这些维度，并用它们丰富数据集描述。
复制链接

扫一扫