LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource

UnknownBody

于 2024-08-29 09:44:06 发布

阅读量147

点赞数

分类专栏： LLM Daily 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141668107

版权

LLM Daily 专栏收录该内容

1230 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文是LLM系列文章，针对《LLMs in the Loop: Leveraging Large Language Model Annotations for Active Learning in Low-Resource Languages》的翻译。

在环中的LLMs：利用大型语言模型注释在低资源语言中进行主动学习

摘要
1 引言
2 LLM在环中
3 实验
4 结论

摘要

由于语言资源和数据标记专业知识有限，低资源语言在人工智能开发中面临重大障碍，使其变得稀有且昂贵。数据的稀缺和现有工具的缺失加剧了这些挑战，特别是因为这些语言可能无法在各种NLP数据集中得到充分表示。为了解决这一差距，我们建议利用LLM在主动学习循环中的潜力进行数据注释。最初，我们进行评估以评估注释器之间的一致性和连贯性，从而帮助选择合适的LLM注释器。然后，使用主动学习范式将所选注释器集成到分类器的训练循环中，从而最大限度地减少所需的查询数据量。经验评估，特别是采用GPT-4-Turbo，表明其性能接近最先进水平，数据要求显著降低，与人工注释相比，估计的潜在成本节约至少为42.45倍。我们提出的解决方案显示出在低资源环境中大幅降低与自动化相关的货币和计算成本的巨大潜力。通过弥合低资源语言和人工智能之间的差距，这种方法促进了更广泛的包容性，并显示了在不同语言环境中实现自动化的潜力。

1 引言

2 LLM在环中

3 实验

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。