Data-Juicer 项目推荐

Data-Juicer 项目推荐

data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! data-juicer 项目地址: https://gitcode.com/gh_mirrors/dat/data-juicer

1. 项目基础介绍和主要编程语言

Data-Juicer 是一个一站式数据处理系统,旨在为大语言模型(LLMs)提供更高质量、更丰富、更易“消化”的数据。该项目的主要编程语言是 Python。Data-Juicer 通过提供一个多模态数据处理系统,使得数据在输入到大语言模型之前能够得到有效的清洗、增强和优化。

2. 项目的核心功能

Data-Juicer 的核心功能包括:

  • 系统化与可重用性:提供了一个包含 80+ 核心操作(OPs)、20+ 可重用配置配方和 20+ 功能丰富的专用工具包的系统库,这些工具设计为独立于特定的多模态 LLM 数据集和处理管道。
  • 数据循环与沙盒:支持一站式数据与模型协同开发,通过沙盒实验室实现快速迭代,并提供基于数据和模型的反馈循环、可视化和多维自动评估功能,帮助用户更好地理解和改进数据和模型。
  • 面向生产环境:提供高效且并行的数据处理管道(如 Aliyun-PAI、Ray、Slurm、CUDA、OP 融合),减少内存和 CPU 使用,优化自动容错。
  • 全面的数据处理配方:提供数十种预构建的数据处理配方,适用于预训练、微调、中英文等多种场景,并在参考 LLaMA 和 LLaVA 模型上得到验证。
  • 灵活性与可扩展性:支持大多数类型的数据格式(如 jsonl、parquet、csv 等),并允许灵活组合 OPs。用户可以自由实现自定义 OPs 以进行定制化数据处理。
  • 用户友好体验:设计简洁,提供全面的文档、易于上手的指南和演示配置,以及通过简单添加/移除 OPs 进行直观的配置。

3. 项目最近更新的功能

Data-Juicer 最近更新的功能包括:

  • 2024-08-09:提出了 Img-Diff,通过对比数据合成增强多模态大语言模型的性能,在 MMVP 基准上比 GPT-4V 高出 12 分。详细信息可在论文中查看,数据集可从 HuggingFace 和 ModelScope 下载。
  • 2024-07-24:启动了“天池更好的合成数据合成竞赛”,这是第四届以数据为中心的 LLM 竞赛。更多信息请访问竞赛官方网站。
  • 2024-07-17:利用 Data-Juicer 沙盒实验室套件,通过数据与模型的协同开发工作流程系统地优化数据和模型,在 VBench 文本到视频排行榜上取得了新的最高分。相关成果已编入论文,并在 ModelScope 和 HuggingFace 平台上发布了模型。
  • 2024-07-12:MLLM-Data 的 Awesome List 已发展成为一个从模型-数据协同开发角度进行的系统性调查,欢迎探索和贡献。
  • 2024-06-01:启动了 ModelScope-Sora“数据导演”创意冲刺,这是第三届以数据为中心的 LLM 竞赛。更多信息请访问竞赛官方网站。
  • 2024-03-07:发布了 Data-Juicer v0.2.0,支持更多多模态数据(包括视频),并引入了 DJ-SORA 以提供开放的大规模高质量数据集。
  • 2024-02-20:积极维护了一个 LLM-Data 的 Awesome List,欢迎访问和贡献。
  • 2024-02-05:论文被 SIGMOD'24 工业轨道接受。
  • 2024-01-10:启动了“数据混合”新视野探索,这是第二届以数据为中心的 LLM 竞赛。更多信息请访问竞赛官方网站。
  • 2024-01-05:发布了 Data-Juicer v0.1.3,支持更多 Python 版本(3.8-3.10),并支持多模态数据集转换/处理(包括文本、图像和音频,未来将支持更多模态)。此外,论文也更新至 v3 版本。
  • 2023-10-13:启动了首届以数据为中心的 LLM 竞赛,更多信息请访问竞赛官方网站。

data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! data-juicer 项目地址: https://gitcode.com/gh_mirrors/dat/data-juicer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸柳辰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值