Data-Juicer算子
类型 | 数量 | 描述 |
---|
Formatter | 7 | 发现、加载、规范化原始数据 |
Mapper | 43 | 对数据样本进行编辑和转换 |
Filter | 41 | 过滤低质量样本 |
Deduplicator | 5 | 识别、删除重复样本 |
Selector | 4 | 基于排序选取高质量样本 |
相关配置文件说明:
提高模态间的对齐
相关算子的使用
phrase_grounding_recall_filter:图文内容主体召回率
image_text_matching_filter:图文BLIP匹配分
基于Analyer的质量&多样性处理
-
用上sandbox insight
-
单模态分别合成、清洗
-
小规模数据快速实验
-
合成后进一步清洗