标题 DeepZ: A Deep Learning Approach for Z-DNA Prediction.
DOI 10.1007/978-1-0716-3084-6_15
期刊 Methods in molecular biology
作者 Nazar Beknazarov; Maria Poptsova
出版日期 2023-01-01
Github:https://github.com/Nazar1997/Sparse-vector
网址 https://doi.org/10.1007/978-1-0716-3084-6_15
摘要
在这里,我们描述了一种使用深度学习神经网络(如CNN和RNN)从DNA序列中聚合信息的方法;核苷酸的物理、化学和结构特性;组蛋白修饰、甲基化、染色质可及性和转录因子结合位点的组学数据以及其他可用NGS实验的数据。我们解释了如何使用训练的模型对Z-DNA区域进行全基因组注释和特征重要性分析,以确定功能Z-DNA区域的关键决定因素。
数据
输入数据取自ChIP-seq实验,通常以区间的形式表示(通常以.dad格式)。在我们描述DeepZ模型的原始研究[10]中,我们使用了两个Z-DNA数据集:一个来自ChIP-seq实验,报告了391个Z-DNA区域[4],第二个数据集由Wu等人[11]和Kouzine等人[12]的数据组成。应该从ENCODE黑名单区域中清除数据集[13]。通常,对于深度学习方法的使用,感兴趣的区域是居中的,并调整到相同的宽度,并被视为正类的对象。在我们的方法中,由于正类中的项目数量较少,我们提出了一种不同的方法。代替间隔,我们考虑核苷酸的水平,其中整个基因组由布尔阵列表示,其中1被分配给Z-DNA区域中的核苷酸