Label Errors in Benchmark ML Test Sets 项目使用教程

Label Errors in Benchmark ML Test Sets 项目使用教程

label-errors 🛠️ Corrected Test Sets for ImageNet, MNIST, CIFAR, Caltech-256, QuickDraw, IMDB, Amazon Reviews, 20News, and AudioSet label-errors 项目地址: https://gitcode.com/gh_mirrors/la/label-errors

1. 项目目录结构及介绍

该项目提供了用于清理和校正十个最常见机器学习基准测试集的工具:ImageNet、MNIST、CIFAR-10、CIFAR-100、Caltech-256、QuickDraw、IMDB、Amazon Reviews、20News 和 AudioSet。

项目目录结构如下:

label-errors/
├── cross_validated_predicted_labels/       # 校验后的预测标签目录
├── cross_validated_predicted_probabilities/ # 校验后的预测概率目录
├── dataset_indexing/                        # 数据集索引目录
├── examples/                                # 示例代码和教程
├── mturk/                                   # mTurk 人工验证的校正标签
├── original_test_labels/                    # 原始测试集标签
├── .gitignore                               # 忽略文件列表
├── LICENSE                                  # 项目许可证
├── README.md                                # 项目自述文件
└── demo.png                                 # 项目演示图片
  • cross_validated_predicted_labels/: 包含每个示例的预测标签数组。
  • cross_validated_predicted_probabilities/: 包含每个示例的预测概率数组。
  • dataset_indexing/: 包含映射校正标签到原始测试集示例的索引文件。
  • examples/: 包含如何使用 CleanLab 包查找标签错误的示例代码和教程。
  • mturk/: 包含 mTurk 人工验证的校正标签。
  • original_test_labels/: 包含原始测试集的标签。
  • .gitignore: 指定在 Git 中应该忽略的文件。
  • LICENSE: 项目的许可证信息。
  • README.md: 项目的介绍和说明。
  • demo.png: 项目的演示图片。

2. 项目的启动文件介绍

该项目的启动主要是通过运行 examples 目录下的 Jupyter 笔记本 Tutorial - How To Find Label Errors With CleanLab.ipynb 来开始的。这个笔记本提供了一个详细的指南,展示如何使用 CleanLab 包来查找每个数据集中的标签错误。

3. 项目的配置文件介绍

该项目的配置主要是通过环境变量和 Python 脚本中的参数设置来完成的。项目并没有一个专门的配置文件,但是以下是一些可能需要配置的方面:

  • 数据集的下载和准备:每个数据集的下载和准备都有特定的步骤,通常涉及到对应的 Python 库(如 torchvisionkeras)或者直接从官方网站下载数据集。
  • mTurk 标签的错误校正:在 mturk/ 目录中,包含了人工校正后的标签数据。这些数据可能需要根据具体的需求进行调整。
  • 索引文件的生成:在 dataset_indexing/ 目录中,包含了将校正后的标签映射回原始测试集的索引文件。如果数据集没有预定义的测试集,则需要生成这样的索引文件。

请注意,具体配置和调整需要根据项目的具体需求和数据集的特性进行。

label-errors 🛠️ Corrected Test Sets for ImageNet, MNIST, CIFAR, Caltech-256, QuickDraw, IMDB, Amazon Reviews, 20News, and AudioSet label-errors 项目地址: https://gitcode.com/gh_mirrors/la/label-errors

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

褚铃尤Kerwin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值