三维基因组染色质环(loop)结构与调控因子紧密关联,直接对基因表达进行调控。
有研究表明,非编码区域的突变往往会导致loop结构的破坏,从而导致原癌基因被激活。
目前,loop结构的识别只能通过高分辨率的三维检测技术来获取,而高分辨率的数据需要通过高测序深度以及更多细胞数量来实现,对于三维结构未知的细胞类型或物种,通过实验技术来得到loop结构仍旧是一项挑战。
针对这一挑战,中南大学计算机学院生物信息学团队研发了基于多组学数据集成学习的LoopPredictor方法,采用H3K27ac组蛋白以及YY1因子作为靶向基因的HiChIP数据来训练模型,通过集成不同细胞类型的loop数据集,以及多组学(基因组、转录组、表观遗传组等)特征数据,LoopPredictor能够有效地识别具有细胞特异性的增强子介导的loop结构。与HiChIP实验生成的H3K27ac-HiChIP数据相比,LoopPredictor能够识别更多的具有调控功能的loop。
此外,通过将小鼠的多组学特征输入到基于人类数据训练的模型中,预测出的增强子介导的loop结构高度保守,进一步表明LoopPredictor具有较高的跨物种预测能力。LoopPredictor的提出对进一步解释染色质相互作用对基因表达的影响,以及致病基因的作用机制有着重要意义。
该研究成果发表在国际权威期刊《Genome Research》上,中南大学计算机学院博士研究生唐丽为第一作者,中南大学计算机学院李敏教授和美国贝勒医学院James F. Martin教授为共同通讯作者。
LoopPredictor的模型框架图以及跨物种、跨细胞系预测的流程图