多模态大模型SFT数据处理

最新推荐文章于 2024-10-05 10:45:00 发布

灵海之森

最新推荐文章于 2024-10-05 10:45:00 发布

阅读量954

点赞数 5

分类专栏： LLM 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43814415/article/details/141162968

版权

LLM 专栏收录该内容

53 篇文章

订阅专栏

多模态数据处理：
数据质量、数据数量、数据分布和数据安全
论文：https://arxiv.org/pdf/2407.19180

数据质量

1.过滤

1.图片过滤：图片过滤器在扩散模型最为常见。
图片属性过滤：分辨率；宽高比。
高级过滤：人工标注选择；模型引导过滤：小模型对图片打分。
来源过滤：根据数据源，如微博可以根据点赞转发数等过滤。

2.文本过滤：
标注者引导过滤：人工选择。
模型引导过滤：ChatGPT，或自己训练小模型。

3.图文对齐过滤：
CLIP相似度分数。

2.数据增强

使用预训练模型，如ChatGPT生成。

2.数据分布

目标是获得一个均衡且多样化的数据集。

1.图像导向平衡：图像分类模型对其分类；图像去重
2.文本导向平衡：排除罕见的名词短语，删除过于常见的名词短语（如llava罕见为3，过于常见是100次）

3.数据安全

包含数据毒性和数据偏见。前者是NSFW，偏见是数据中的社会偏见或刻板印象。

1.有毒数据
文本：https://blog.csdn.net/PolarisRisingWar/article/details/130349309
图像：CLIP embeddings 比较图片和毒性文本的相似度。
2.偏见数据
反事实数据增强（CAD）是一种用于平衡文本数据中表示偏差的常见技术。
https://aclanthology.org/2022.naacl-main.347/

合成VQA数据的数据处理

1.设计promot，任务导向，few shot
2.使用ChatGPT生成实例，维护一个任务池，每当有新实例时就把实例与任务池中的所有数据计算ROUGE-L，小于0.7再添加进任务池
3.对任务池的数据去重
4.计算整体数据的slef-bleu，观察整体的多样性情况
5.计算每条实例的distinct值，观察每条实例的多样性。过滤，然后回到4.
6.描述性统计分析，聚类图展示

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

灵海之森 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。