多模态大模型SFT数据处理

多模态数据处理:
数据质量、数据数量、数据分布和数据安全
论文:https://arxiv.org/pdf/2407.19180

数据质量

1.过滤

1.图片过滤:图片过滤器在扩散模型最为常见。
图片属性过滤:分辨率;宽高比。
高级过滤:人工标注选择;模型引导过滤:小模型对图片打分。
来源过滤:根据数据源,如微博可以根据点赞转发数等过滤。

2.文本过滤
标注者引导过滤:人工选择。
模型引导过滤:ChatGPT,或自己训练小模型。

3.图文对齐过滤
CLIP相似度分数。

2.数据增强

使用预训练模型,如ChatGPT生成。

2.数据分布

目标是获得一个均衡且多样化的数据集。

1.图像导向平衡:图像分类模型对其分类;图像去重
2.文本导向平衡:排除罕见的名词短语,删除过于常见的名词短语(如llava罕见为3,过于常见是100次)

3.数据安全

包含 数据毒性和数据偏见。前者是NSFW,偏见是数据中的社会偏见或刻板印象。

1.有毒数据
文本:https://blog.csdn.net/PolarisRisingWar/article/details/130349309
图像:CLIP embeddings 比较图片和毒性文本的相似度。
2.偏见数据
反事实数据增强(CAD)是一种用于平衡文本数据中表示偏差的常见技术。
https://aclanthology.org/2022.naacl-main.347/

合成VQA数据的数据处理

1.设计promot,任务导向,few shot
2.使用ChatGPT生成实例,维护一个任务池,每当有新实例时就把实例与任务池中的所有数据计算ROUGE-L,小于0.7再添加进任务池
3.对任务池的数据去重
4.计算整体数据的slef-bleu,观察整体的多样性情况
5.计算每条实例的distinct值,观察每条实例的多样性。过滤,然后回到4.
6.描述性统计分析,聚类图展示

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值