Jellyfish: A Large Language Model for Data Preprocessing

515 篇文章 3 订阅

已下架不支持订阅

Jellyfish是一款开源的大型语言模型,设计用于通用数据预处理任务。基于Llama 2-13B模型,它经过多个DP任务的指令调整,如错误检测、数据插补等。Jellyfish在单个、低价GPU上运行,保证数据安全,同时提供解释器来解释输出决策。通过知识注入增强性能,Jellyfish在实验中展现出与先进方法竞争的实力和对新任务的高可扩展性。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《Jellyfish: A Large Language Model for Data Preprocessing》的翻译。

摘要

作为数据挖掘管道中的关键步骤,数据预处理(DP)是将原始数据转换为便于处理的干净格式的过程。虽然存在各种DP任务,如错误检测和实体匹配,但大多数当前的DP解决方案仅限于一个或两个特定任务。大型语言模型(LLM)的出现,特别是那些对自然语言提示做出响应的模型,激发了人们对开发适用于广泛DP任务的通用解决方案的兴趣。然而,该领域的现有方法通常依赖于OpenAI的GPT API,这引发了不可避免的数据泄露问题。
在本文中,我们介绍了Jellyfish,一种开源LLM,作为DP的通用任务求解器。Jellyfish建立在Llama 2-13B模型的基础上,利用几个典型DP任务的数据集进行指令调整,包括错误检测、数据插补、模式匹配和实体匹配,并为其他任务提供可推广性。
值得注意的是,Jellyfish可以在具有130亿参数的本地、单个和低价GPU上运行,确保数据安全并实现进一步的调优。它在理解自然语言方面的熟练程度允许用户手动编写DP任务的指令。与许多严重依赖先验知识的现有方法不同,Jellyfish在调整过程中获取领域知识,并在推理过程中集成可选的知识注入。Jellyfish的一个显著特点是它的解

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值