多模态数据处理:
数据质量、数据数量、数据分布和数据安全
论文:https://arxiv.org/pdf/2407.19180
数据质量
1.过滤
1.图片过滤:图片过滤器在扩散模型最为常见。
图片属性过滤:分辨率;宽高比。
高级过滤:人工标注选择;模型引导过滤:小模型对图片打分。
来源过滤:根据数据源,如微博可以根据点赞转发数等过滤。
2.文本过滤:
标注者引导过滤:人工选择。
模型引导过滤:ChatGPT,或自己训练小模型。
3.图文对齐过滤:
CLIP相似度分数。
2.数据增强
使用预训练模型,如ChatGPT生成。
2.数据分布
目标是获得一个均衡且多样化的数据集。
1.图像导向平衡:图像分类模型对其分类;图像去重
2.文本导向平衡:排除罕见的名词短语,删除过于常见的名词短语(如llava罕见为3,过于常见是100次)
3.数据安全
包含 数据毒性和数据偏见。前者是NSFW,偏见是数据中的社会偏见或刻板印象。
1.有毒数据
文本:https://blog.csdn.net/PolarisRisingWar/article/details/130349309
图像:CLIP embeddings 比较图片和毒性文本的相似度。
2.偏见数据
反事实数据增强(CAD)是一种用于平衡文本数据中表示偏差的常见技术。
https://aclanthology.org/2022.naacl-main.347/
合成VQA数据的数据处理
1.设计promot,任务导向,few shot
2.使用ChatGPT生成实例,维护一个任务池,每当有新实例时就把实例与任务池中的所有数据计算ROUGE-L,小于0.7再添加进任务池
3.对任务池的数据去重
4.计算整体数据的slef-bleu,观察整体的多样性情况
5.计算每条实例的distinct值,观察每条实例的多样性。过滤,然后回到4.
6.描述性统计分析,聚类图展示