论文解读：DeepZ：一种用于Z-DNA预测的深度学习方法

本文链接：https://blog.csdn.net/qq_41909775/article/details/130626023

文章介绍了一种名为DeepZ的深度学习方法，用于预测DNA序列中的Z-DNA结构。DeepZ结合了CNN和RNN模型，利用ChIP-seq数据和多种组学信息。通过稀疏向量压缩处理大数据，解决了内存需求问题。模型训练采用了五折交叉验证策略，确保预测准确性。同时，文章探讨了特征重要性分析，以理解模型的决策基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题 DeepZ: A Deep Learning Approach for Z-DNA Prediction.

DOI 10.1007/978-1-0716-3084-6_15

期刊 Methods in molecular biology

作者 Nazar Beknazarov; Maria Poptsova

出版日期 2023-01-01

Github:https://github.com/Nazar1997/Sparse-vector

网址 https://doi.org/10.1007/978-1-0716-3084-6_15

摘要

在这里，我们描述了一种使用深度学习神经网络（如CNN和RNN）从DNA序列中聚合信息的方法；核苷酸的物理、化学和结构特性；组蛋白修饰、甲基化、染色质可及性和转录因子结合位点的组学数据以及其他可用NGS实验的数据。我们解释了如何使用训练的模型对Z-DNA区域进行全基因组注释和特征重要性分析，以确定功能Z-DNA区域的关键决定因素。

数据

输入数据取自ChIP-seq实验，通常以区间的形式表示（通常以.dad格式）。在我们描述DeepZ模型的原始研究[10]中，我们使用了两个Z-DNA数据集：一个来自ChIP-seq实验，报告了391个Z-DNA区域[4]，第二个数据集由Wu等人[11]和Kouzine等人[12]的数据组成。应该从ENCODE黑名单区域中清除数据集[13]。通常，对于深度学习方法的使用，感兴趣的区域是居中的，并调整到相同的宽度，并被视为正类的对象。在我们的方法中，由于正类中的项目数量较少，我们提出了一种不同的方法。代替间隔，我们考虑核苷酸的水平，其中整个基因组由布尔阵列表示，其中1被分配给Z-DNA区域中的核苷酸࿰