1.论文区分和解决的问题
(1)论文中解决的问题:用于对高维数据和存在噪声的数据进行降维降噪,将提取出来的特征进行分类,结果提高了分类的性能。
(2)与其他方法的区别:SDAEs提取出基因数据中线性和非线性的关系,从深度学习中提取出一系列相关基因作为潜在癌症基因的生物标志物。PCA降维操作只是提取了数据中的线性关系,并未提取出数据的非线性关系。单层的去燥自动编码从含有各种噪声,复杂和高维的数据中不能有效的提取出所有的有效特征,所以使用堆叠降噪自动编码。
2.使用堆叠降噪自动编码降维
(1)AE是一个前馈神经网络,在低维中尽可能的使输出层和输入层提取出的特征总能尽可能的相同。自动编码包括编码和解码,编码是一个非线性函数,像Sigmoid函数,应用隐藏层。矩阵W是由为d'*d组成的,从高维的基因数据d编码到一个低维d'的基因数据。偏差b是低维d'。输入编码数据是下一个隐藏层的输入数据,解码数据试讲编码数据的输出作为解码部分的输入,将表示为
其中w'为W的转置。
(2)SDAE的重构是由一系列的AE组成个并且增加了额外的噪声为了防止过拟合。为了的得到更好的特征,我们将最大化输入层信息的获得(任意的变量x来自于一个不知道的分配去q(x))和高水平的随机表示(任意变量Y来自于分配)。
(3)最大会问题与隐层特征最小化重构误差相联系。在这个重构中,隐藏层将会除去无用和噪声特征。事实上,自动编码提取一系列的新的特征在输入变量中。输入层的重构误差使用这个新的表示是非0的,但是是最小的。实际上,权重模型通过随机下降算法来学习。
(4)自动编码提取输入数据中的线性和非线性关系,SDAE的编码通过堆叠隐藏层减少维度,在减少维度这一步中导致减少信息的丢失,解码增加维度最终实现与原始重构尽可能相同的数据。
(5)利用深度学习框架预训练数据将会有更好的泛化能力。逐层贪婪预训练是一种无监督的方法,初始化参数达到局部最优,将问题转化成得到一个更好的优化模型。因此,在癌症分类中预训练方法实现光滑的集合和更高的性能。在预训练初始化参数之后,我们使用监督训练的方法进行全局微调去更新参数。
(6)在SDAE学习阶段中,为了避免过拟合,我们使用dropout正则化因素。出于相同的目的,我们提供了一部分的损坏的输入(降噪)
(7)不同的基因表达
3.使用PCA进行数据降维
我们提取的特征使用线性PCA对于我们的ML模型提供一个标准对于线性降维。并将RBF加入到PCA中进行非线性的降维。
4.分类学习
(1)使用单层的ANN从输入节点到输出节点没有任何的隐藏层。输出的计算将是
(2)使用(SVM-RBF)使用5 折交叉验证。
5.本文存在的缺陷
深度学习方法的一个限制是对大数据集的需求,这对于癌症组织可能是不可用的。我们期望随着更多的基因表达数据变得可用,该模型将改进性能并揭示更有用的模式。因此,深度学习模型对于大的输入数据具有高度的可扩展性。
未来的工作是需要分析不同类型的癌症,以确定癌症专科生物标志物。此外,通过分析聚集的异质性癌症数据,有可能鉴定跨癌生物标志物。