在读论文的时候对有些疑惑查的资料的总结:
- multi-view&input-channel?
multi-view patches: 对每个nodule选6 slices
input-channel: each channel for each different nodule
- filter的作用?
filter = convolution kernel,滤波器,提取patch的不同特征。
- How to 3D?
参考的资料来自一个处理视频的3D CNN:对于一个3D的convolution kernel,例如4*4*3,当输入是20*20*60(长、宽、帧数)计算输出的维度就是,(20 - 4 + 1) * (20 - 4 + 1) * (60 - 3 + 1). 这里只是举个例子,实际上输入后会提取出多层不同的信息出来,但是3D CNN的主要思想就是对输入数的维度和平面的维度看做不同的dimension.
- Global average pooling
可以取代fully connected layers, and feeds the resulting vector directly into the softmax layer.
例:100个feature map,每一个feature map看做成对应每一个类的概率的相关值,然后对每一个feature map求平均值(即global average pooling),得到一个100维向量。
总结:这篇论文主要用不同的3D CNN与multi-view strategy的结合在LIDC数据集上验证出了他们的结合能够产生很好的效果。
参考文章:
原论文:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0188290
3D CNN:https://blog.csdn.net/auto1993/article/details/70948249