使用 PyTorch 来检测癌症_ct肿瘤识别 python-CSDN博客

本文链接：https://blog.csdn.net/qq_45404805/article/details/136859408

本篇博客介绍了使用 PyTorch 进行肺部恶性肿瘤自动检测的项目，从CT扫描数据的介绍、项目结构、数据预处理到端到端的检测流程。通过理解CT扫描的特性，学习如何处理医学影像数据，使用LUNA16数据集进行训练，最终构建一个肺癌检测系统。项目分为数据加载、分割、分组、分类和诊断五个步骤，强调了理解数据和问题背景的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总章节

本章主要内容

把一个大问题分解成更小、更容易的问题
探索复杂的深度学习问题的约束条件，并决定结构和方法
下载训练数据

在第 10 章中，我们将开始**构建数据解析和数据操作例程，这些例程将生成第 11 章中使用的数据，同时训练**我们的第 1 个模型。

为了做好后文所需要的工作，我们还将在本章中介绍我们的项目的**运行环境：我们将讨论数据格式、数据源，并探索问题域**对我们的限制。

9.1 用例简介

本章选择了**肺部恶性肿瘤的自动检测，只使用病人胸部的 CT 扫描作为输入。注意 CT 扫描本质上是三维 X 射线，以单通道数据的三维数组**表示。稍后会更详细地介绍。

准确地说，这一部分的项目将**以人体躯干的三维 CT 扫描作为输入，并输出疑似恶性肿瘤的位置**（如果存在的话）。

早期发现肺癌对生存率有很大的影响，但人工检测很难做到，尤其是在全面、全人群的场景方面。目前，审查数据的工作必须由训练有素的专家进行，需要对细节进行格外的关注。做这项工作就好比你站在 100 个干草堆前，然后你被告知“确定其中哪一个（如果有的话）里面有针”。这种探寻方式可能导致错过警告信号，特别是在早期阶段信号非常微妙的时候。人类的大脑不适合做这种单调的工作，当然，这正是深度学习的意义所在。

不管你做什么项目，学习如何**审查、预处理和展示你的训练数据都是非常重要的。虽然我们是在肺部肿瘤的特定背景下介绍预处理，但要保证项目成功，这通常也应该是你需要做的准备工作。类似地，建立一个训练循环，获得正确的性能指标，并将项目的模型结合到一个最终的应用程序中**，这些都是我们将在第 9 章到第 14 章中使用的通用技能。

注意
虽然模型的**最终结果是有效的，但输出不够精确，不能用于临床**。我们专注于将之作为 PyTorch 教学的启发性例子，而不是用这些技巧来解决实际问题。

9.2 为一个大型项目做准备

重复的**卷积层和降低分辨率的下采样层仍然是模型的主要组成部分，不过我们将使用三维数据作为模型的输入**，这在概念上类似于第 1 部分最后几章中使用的二维图像数据，但我们不能依赖于PyTorch 生态系统中所有可用的二维特定工具。

这是**非标准数据的直接后果，因为没有预先构建的库随时可以给我们提供适合插入模型的训练样本**，我们需要去了解我们的数据并自己实现相当多的东西。即使这样做了，我们也不会把 CT 转换成张量，把它输入神经网络，然后在另一边得到答案。

接下来实现代码的正常运行，将要求**访问 GPU ** 以达到合理的训练速度，最好是具有至少8GB 内存的 GPU。因为，在 CPU 上尝试训练我们将建立的模型可能需要几个星期。另外，还需要至少 220 GB 的空闲磁盘空间来存储原始训练数据、缓存数据和训练过的模型。

好了，我们已经确定这是一个困难的、多方面的问题，那么我们要怎么做呢？我们将解决一系列简单的问题，结合起来提供我们感兴趣的**端到端**的结果，而不是通过整个 CT 扫描来寻找肿瘤的迹象或潜在的恶性肿瘤。就像工厂的装配线一样，每一步都将从前面的步骤抑或输出中获取原材料（数据），进行一些处理，并将处理结果传递给生产线上的下一个工作站。

并不是每个问题都需要用这种方式来解决，但是**把问题分开为一个个部分单独解决通常是解决问题的一个很好的开始**。即使对于一个给定的项目来说，这是一个错误的方法，我们也很有可能在处理单个部分的过程中学习到足够多的知识，从而知道如何成功地重组我们的方法。

在我们详细讨论如何分解我们的问题之前，我们需要**了解一些医学领域的细节**。