Label Errors in Benchmark ML Test Sets 项目使用教程
1. 项目目录结构及介绍
该项目提供了用于清理和校正十个最常见机器学习基准测试集的工具:ImageNet、MNIST、CIFAR-10、CIFAR-100、Caltech-256、QuickDraw、IMDB、Amazon Reviews、20News 和 AudioSet。
项目目录结构如下:
label-errors/
├── cross_validated_predicted_labels/ # 校验后的预测标签目录
├── cross_validated_predicted_probabilities/ # 校验后的预测概率目录
├── dataset_indexing/ # 数据集索引目录
├── examples/ # 示例代码和教程
├── mturk/ # mTurk 人工验证的校正标签
├── original_test_labels/ # 原始测试集标签
├── .gitignore # 忽略文件列表
├── LICENSE # 项目许可证
├── README.md # 项目自述文件
└── demo.png # 项目演示图片
cross_validated_predicted_labels/
: 包含每个示例的预测标签数组。cross_validated_predicted_probabilities/
: 包含每个示例的预测概率数组。dataset_indexing/
: 包含映射校正标签到原始测试集示例的索引文件。examples/
: 包含如何使用 CleanLab 包查找标签错误的示例代码和教程。mturk/
: 包含 mTurk 人工验证的校正标签。original_test_labels/
: 包含原始测试集的标签。.gitignore
: 指定在 Git 中应该忽略的文件。LICENSE
: 项目的许可证信息。README.md
: 项目的介绍和说明。demo.png
: 项目的演示图片。
2. 项目的启动文件介绍
该项目的启动主要是通过运行 examples
目录下的 Jupyter 笔记本 Tutorial - How To Find Label Errors With CleanLab.ipynb
来开始的。这个笔记本提供了一个详细的指南,展示如何使用 CleanLab 包来查找每个数据集中的标签错误。
3. 项目的配置文件介绍
该项目的配置主要是通过环境变量和 Python 脚本中的参数设置来完成的。项目并没有一个专门的配置文件,但是以下是一些可能需要配置的方面:
- 数据集的下载和准备:每个数据集的下载和准备都有特定的步骤,通常涉及到对应的 Python 库(如
torchvision
、keras
)或者直接从官方网站下载数据集。 - mTurk 标签的错误校正:在
mturk/
目录中,包含了人工校正后的标签数据。这些数据可能需要根据具体的需求进行调整。 - 索引文件的生成:在
dataset_indexing/
目录中,包含了将校正后的标签映射回原始测试集的索引文件。如果数据集没有预定义的测试集,则需要生成这样的索引文件。
请注意,具体配置和调整需要根据项目的具体需求和数据集的特性进行。