31、深度学习图像分类器调试:数据质量、测试与敏感性分析

深度学习图像分类器调试:数据质量、测试与敏感性分析

1. 数据质量与泄漏问题

在肺炎 X 光数据集的研究中,存在诸多数据质量方面的挑战。
- 数据分布问题 :目标类别分布不均衡,肺炎类别的图像数量多于正常类别的图像。同时,验证集规模过小,难以得出有意义的结论。
- 图像标记问题 :图像中存在镶嵌文本或标记等多余信息。不同医院或部门的 X 光机生成的图像有特定风格偏好,仔细观察会发现很多不必要的标记、探头和其他噪声。在捷径学习过程中,如果不加以注意,这些标记可能会成为深度学习过程的焦点。
- 数据泄漏问题 :数据泄漏指在训练时模型能够获取验证或测试数据的信息。这会使模型在测试集上表现乐观,但在现实世界中可能表现不佳。数据泄漏的原因主要有以下几点:
- 数据分区随机划分 :这是最常见的泄漏原因。当代表同一患者的样本同时出现在训练集和验证或测试集中时,就会发生泄漏。由于训练数据中存在同一患者的多张图像,简单的随机划分可能导致同一患者的图像出现在不同的数据集中。
- 数据增强导致的泄漏 :数据增强是深度学习流程的重要组成部分,但如果操作不当,会导致数据泄漏。例如,从同一真实图像生成的新合成图像可能会出现在多个数据集中。
- 迁移学习中的泄漏 :当源数据集和目标数据集属于同一领域时,迁移学习可能会导致泄漏。例如,在某些研究中发现,预训练模型使用错误的数据集时,会出现非常隐蔽的数据泄漏。

为了识别错误标记的数据,在没有领域专家的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值