准确率99.9%!如何用深度学习最快找出放倒的那张X光胸片(代码+数据)

医学图像数据的质量一直是个老大难题。难以清理的数据制约着许多深度学习的应用。

而实际上,深度学习本身就是清洗医疗数据的好帮手。

今天,我们就来讲一个案例,展示如何用深度学习迅速清洗一个杂乱的医疗图像数据集。

案例的主角是胸部X光图像。

由于设备制造商的不同,胸部X光的图像有可能是水平的,也可能是垂直翻转的。他们可能会倒置像素值,也可能会旋转。问题在于,当你处理一个庞大的数据集(比如说50到100万张图像)的时候,如何在没有医生查看的情况下发现畸变?

你可以试图编写一些看似优雅高效的解决方案,例如:

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

在许多胸部X射线图像的两侧有黑色边框(因为大多数图像的高度大于宽度),所以如果当底部有超过50个黑色像素行的时候,这幅图像可能被旋转了90度。

这个规则看起来非常靠谱,但在实际运用中却经常犯错。

9052e76d4e92c26316147486062e4e59078fcde4

上面三幅图中,只有中间的图像存在“黑色边框在两侧”的情况,因而上面这一方案并不实用。

这些人为制定的规则并不能解决我们的问题。

那么,我们是不是可以利用机器学习来构建我们无法手写代码的解决方案呢?实际上,找出像图片旋转之类问题对机器来说是其实非常简单的。像人类一样,机器可以很容易、并且几乎完美地解决这些问题。

所以,使用深度学习来修复我们的数据集是显而易见的解决方案。

下面,我将向你展示这些技术的工作原理,以及如何用最少的时间和精力完成这些工作,并介绍一些正在使用的方法实例。

在这个案例中,我将使用CXR14数据集,这个数据集经过非常精心的策划管理,但仍然包含了一些“坏图”。所以我还会给你新的包括430种标签的数据集,这样你就不用担心其中暗藏的异常图像了!

数据集链接:

https://nihcc.app.box.com/v/ChestXray-NIHCC

机器学习真的能解决这个问题么?

开始之前,让我们先想一想,这个问题对于机器学习来说真的很简单么?

考虑到大多数图片都是正常的,你需要非常高的精度来防止排除过多正常的图片。我们的目标准确率是99.9%。

这难不难处理呢?我们不妨问问自己:你能否想出一个简单的可视化规则来解决这一问题?

显然,区分猫狗这个问题就很难用一个简单的可视化规则处理,这也是为什么我们需要ImageNet数据集了。由于图像之间的区别可能非常大,区分猫狗的问题有太多复杂的因素需要考虑。

原文链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值