论文笔记:DeepEP: a deep learning framework for identifying essential proteins
一、论文创新
1.通过 得到了得到了蛋白质的拓扑特征。
2.采用了一种采样方法有效的解决了重要蛋白质和不重要蛋白质的失衡问题。
二、方法
(一)、网络结构
提出了一种新的深度学习架构,DeeEP
1.网络有两部分组成:特征提取和分类
2.PPI网络的蛋白质拓普数据和基因表达数据作为分类模型的输入
3.通过Node2vec得到PPI网络拓扑结构特征
(二)、Node2vec得到拓扑特征
1、word2vec
2、Deepwalk
3、DFS邻域和BFS
4、Node2vec原理及过程
原理:
过程:
(三)、采样方法
- M表示essential proteins的数量
- N表示(non-essential proteins),M(967)< N(3270)
采样步骤:
1、将数据集分为两个部分80%(4237)用于训练,20%用于测试(1060)
2、将负样本索引求和后打乱
3、从打乱的N个负样本中取M个负样本,并进concatenate
4、将拼接的训练进行打乱,得到本地训练的训练集
5、将训练集放入模型进行训练
6、每次训练重读2-5
设进行K次训练,非重要至少一次被选中的概率为P,训练过程中应该使得每个负样本尽可能的被选中及P足够的小:
三、数据
1、protein_emb.npy:由node2vec利用PPI网络生成的64维向量。它的形状是5297个蛋白质x 64个特征(见图片)
2、protein_matrix.npy:基因表达数据5297个蛋白x 3个周期x 12个时间点
3、protein_labels.npy:标签
四、结果
1、使用PPI网络的数据采用不同的特征生成方法