#Datawhale AI夏令营第4期#多模态大模型复盘

这是Datawhale AI夏令营第4期多模态大模型赛道的复盘总结。本次学习最终获得了优秀学习者的称号。

本次赛事是天池Better Synth多模态大模型数据合成挑战赛。Better Synth 是一项以数据为中心的挑战赛,考察如何合成与清洗图文数据以在多模态大模型上取得更优的图片理解能力。数据集产出流程中必须包含“合成”的过程。

涉及到的知识点:

  1. 多模态大模型训练脚本
  2. 简单的Linux操作系统下的环境配置和安装
  3. Data Jucier 与 Mini-Gemini 的学习
  4. 数据处理的进阶技巧和模型训练阶段的技巧等
  5. Data Jucier Playground

  6. Mini-Gemini

  7. 数据处理

  8. 官方赛事解读

  9. 自定义算子介绍

  10. data-juicer sandbox insights讲解

  11. 上分思路

困难:

1.全数据未跑通;

2.150k数据跑完结果不对,未找到原因

3.时间、算力困难,上分思路未实践

4.data-juicer和sandbox没有深入研究

后续方向:

  1. 熟悉Data-Juicer官方文档和示例

  2. sandbox样例研究

  3. 上分思路实践(10k模型)

  4. 多模态相关论文阅读(B站)

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值