本篇博客主要对近年来大赛(Luna16,kaggle,天池)中使用的肺部图像的读取和坐标转换进行整理,如果有错误,欢迎批评指正,谢谢。
1 介绍mhd格式的数据:
数据可以在Luna16(https://luna16.grand-challenge.org/Data/)下载。
(1) 每个病例的数据的存储都是由一个.mhd和一个.raw格式的文件组成。
mhd的内容和比较重要的注释:
ObjectType = Image
NDims = 3 #三维数据
BinaryData = True #二进制数据
BinaryDataByteOrderMSB = False
CompressedData = False
TransformMatrix = 1 0 0 0 1 0 0 0 1 #100,010,001 分别代表x,y,z
Offset = -198.10000600000001 -195 -335.209991 #原点坐标
CenterOfRotation = 0 0 0
AnatomicalOrientation = RAI
ElementSpacing = 0.7617189884185791 0.7617189884185791 2.5 #像素间隔 x,y,z
DimSize = 512 512 121 #数据的大小 x,y,z
ElementType = MET_SHORT
ElementDataFile = 1.3.6.1.4.1.14519.5.2.1.6279.6001.105756658031515062000744821260.raw #数据存储的文件名
(2) mhd已经交代了图像数据的信息,接下来对图像数据进行读取,这里主要用的Python中的SimpleITK库:
以一个病例为例:
import SimpleITK as sitk
import matplotlib.pyplot as plt
case_path = './1.3.6.1.4.1.14519.5.2.1.6279.6001.126264578931778258890371755354.mhd'
itkimage = sitk.ReadImage(case_path) #这部分给出了关于图像的信息,可以打印处理查看,这里就不在显示了
#print(itkimage)
image = sitk.GetArrayFromImage(itkimage) #z,y,x
#查看第100张图像
plt.figure()
plt.imshow(image[100,:,:])
(3) 坐标转换
在luna16大赛中提供了医生标注肺结节位置信息的csv文件 和病例的图像(mhd)。
csv文件中的内容形式为:
seriesuid:表示每个病例图像对应的文件名
coordX,coordX,coordX,diameter_mm:表示医生标注的结节位置信息和直径
在使coordX用卷积网络对肺结节进行检测时,我们需要根据医生提供的标注信息,在图像中找到相应的肺结节位置,接下来说医生标注的坐标与图像中的坐标的关系。
以一个病例上的一个肺结节为例:
csv:
mhd中给定了图像中的原点坐标为(-163.1962890625, -319.1962890625, -380.5) #x,y,z
像素间隔为(0.607421875 ,0.607421875 ,0.5) #x,y,z
通过以上信息可以计