探索不确定性：评估与校准不确定地面真实值的AI模型

钟洁祺

于 2024-06-08 09:50:38 发布

阅读量261

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gitblog_00056/article/details/139541403

版权

探索不确定性：评估与校准不确定地面真实值的AI模型

uncertain_ground_truth Dermatology ddx dataset, Jax implementations of Monte Carlo conformal prediction, plausibility regions and statistical annotation aggregation from our recent work on uncertain ground truth (TMLR'23 and ArXiv pre-print). 项目地址: https://gitcode.com/gh_mirrors/un/uncertain_ground_truth

在这个充满高科技的时代，AI模型已经深入到我们的日常生活中，从医疗诊断到自动驾驶，无处不在。然而，一个经常被忽视的问题是，我们如何在面临不确定和模糊的地面真实数据时，有效地评估和校准这些智能系统？开源项目 "Evaluation and calibration with uncertain ground truth" 正是为此而生。

项目介绍

这个项目源自两篇开创性的论文，旨在解决AI模型在不确定和模棱两可的地面真实数据环境下的评价与校准问题。它提供了代码库，用于在皮肤病诊断数据集上重现研究结果，并开放了专家注释的“皮肤科DDX数据集”作为未来工作的基准。

项目技术分析

项目的核心在于对不确定性的处理。首先，它将地面真实不确定性分解为两个主要组成部分：来自不准确标注的注释不确定性，以及由于观察信息有限导致的内在不确定性。通过统计模型进行注释聚合，而不是简单的多数投票或平均，以捕捉这种不确定性。其次，项目采用了一致性预测（Conformal Prediction），这是一种提供严格不确定性量化的方法，能构建一个预测集合，保证真标签以高概率被包含其中。当注释者意见分歧较大时，项目提出了基于统计注释的多样本伪标签的蒙特卡洛一致性预测，以更精确地反映不确定性。

项目及技术应用场景

这项技术特别适用于那些依赖于人类注释的数据密集型应用，例如：

医疗诊断：医生间的诊断可能存在差异，但AI模型通常只接受单一的“确定性”结果。
图像识别：图像中的对象可能有多重解释，不同的观测者可能会有不同的理解。
自然语言处理：文本含义的主观性和多义性要求AI模型能够处理不确定性。

项目特点

复杂性处理: 该项目不仅仅关注模型性能，还考虑了不确定性和不一致性的复杂性。
创新方法：采用统计模型来聚合注释，并提出多样本蒙特卡洛一致性预测。
可重复性：提供的代码库使其他研究人员可以复现并扩展研究结果。
实用资源：提供了皮肤科DDX数据集作为基准，鼓励社区进行进一步的研究。

为了开始探索，只需按照项目README文件中的步骤安装所需环境，运行代码即可。无论你是研究人员，还是对AI安全感兴趣的开发者，这个项目都是一个深入了解和应对不确定性挑战的理想起点。

开始你的旅程，让我们一起揭示AI模型在不确定性面前的真实表现吧！

uncertain_ground_truth Dermatology ddx dataset, Jax implementations of Monte Carlo conformal prediction, plausibility regions and statistical annotation aggregation from our recent work on uncertain ground truth (TMLR'23 and ArXiv pre-print). 项目地址: https://gitcode.com/gh_mirrors/un/uncertain_ground_truth

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

钟洁祺 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。