教授专栏100 | 唐少军: 利用深度学习挖掘DNA弯曲性的潜在特性及其在人群中分子转录调控的作用...

文 / 唐少军教授

01

简 介

DNA弯曲性(DNA bendability)是指DNA双螺旋结构在某些区域出现的物理弯曲。这种弯曲性是由DNA序列的特定性质决定的。DNA弯曲性在细胞生物学和分子生物学中扮演着重要的角色,包括:调控基因表达、DNA复制和修复、染色体打包、细胞核内的空间组织等。

55b9cd113e02e58bfd177f9bf1ea574d.jpeg

图为:香港科技大学(广州)唐少军教授团队合影

最近,一种被称为“loop-seq”的先进高通量技术使得测量 DNA 片段固有的弯曲性成为可能。然而,量化大规模 DNA 的弯曲性是昂贵、费力且耗时的。为了缩小快速发展的大型语言模型和不断扩展的基因组序列信息之间的差距,并阐明 DNA 弯曲性对关键调控基序(motif)(例如人类基因组中的超级增强子)的影响,本团队提出了一种基于双模态表征的自监督预训练语言模型,根据DNA的序列信息以及其理化性质信息,来预测其对应的弯曲性。实验结果验证了 MIXBend 相对于其他最先进方法的优越性能。MIXBend 还能挖掘酵母中已知和未知的基序(motif)。此外,MIXBend还发现了人类基因组中超级增强子区域和转录因子结合位点内存在显着的弯曲性波动。该研究成果在2024年2月发表于《核酸研究》(Nucleic Acids Research, gkae099)。

f50065a687c5999f363ce756dcf2b763.png

02

方 法

本研究开发了一个名为 MIXBend 的自监督预训练框架,集成了DNA的序列特征和理化特征,为表征DNA序列提供了综合性的视图。MIXBend的算法框架如图1所示。MIXBend由4个步骤组成,即数据预处理、特征提取、模态对齐和可弯曲性预测。为了初始化序列编码器(SE)的表征,DNA 序列被分割成k-mer单词。然后,对k-mer单词向量和和位置向量求和来构建 SE 的表征。MIXBend采用了四种不同类型的DNA理化性质,包括:独热编码(one-hot)、核苷酸化学性质(NCP)、二核苷酸理化性质(DPP)和位置向量来计算理化性质向量(PE embedding)。在数据预处理之后,开发了序列编码器和理化性质编码器来分别提取精细化的表征。在模态对其步骤中,本文提出了一种基于对比学习的单词级别匹配算法,以减少序列特征和理化性质特征之间的语义差距。最后,采用基于自注意力机制的融合层来合并这些特征,以预测DNA弯曲性。

ce4916a77087a5153a10c22ec0532e9a.png

图1:MIXBend 算法框架。(A)算法包括4 个连续步骤:Step 1数据预处理、Step2特征提取、Step3模态对齐和Step4弯曲性预测。(B)MIXBend 通过注意力机制挖掘酵母中已知和未知的基序(motif)。

03

实 验

与先进的方法进行比较:本研究使用了10折交叉验证对MIXBend和其他先进的方法在两个基准数据集Random和Nucleosomal中进行评估。结果表明MIXBend表现出出色的性能,具有最高的平均R2 和Pearson相关值。具体来说,它的R2 和Pearson相关值在Random中超过第二名约4.37%和3.01%,同时在Nucleosomal数据集中超出第二名 3.20%和2.01%。这可以归因于预训练模型的使用、基于序列和基于理化性质表征的利用,以及提出的基于k-mer的序列-理化性质匹配机制,以最小化双模态表征之间的内在异质性差距。

0f8f9e37f3535be1af50b10fc60ba8a7.jpeg

挖掘DNA基序和共有序列:DNA基序(motifs)是一种在DNA序列中重复出现的、具有特定功能的短序列模式。共有序列(consensus sequence)是在一套序列中的每个位置上都由最常出现的残基所组成的DNA序列。在DNA序列中挖掘这些模式在对了解特定的生物学功能至关重要。MIXBend使用序列编码器(SE)和理化性质编码器(PE)中的注意力机制挖掘出酵母菌中已知和未知的DNA基序,并使用无监督聚类算法和特定规则筛选共有序列。如图2(A)所示,GGCTCT是MIXBend抽取出最弯曲的基序,在所有基于6-mer的序列中弯曲性排第三。图2(B)展示了GGCTCT和其互补序列AGAGCC及其变体的弯曲性分布。图2(C)给出了共有序列的logo图。实验证明所挖掘出来的共有序列都跟已报道的转录因子(transcription factor)和基因本体功能(Gene ontology function)相关。

4ca124711a524db950f8c0dc3dc8cbbd.png

图2: DNA基序和共有序列。(A)MIXBend抽取的基序中最弯曲的基序GGCTCT的logo图。(B)箱线图显示了ChrV数据集中包含GGCTCT和其互补序列AGAGCC及其变体(即长度相同、仅相差1 bp的序列)的弯曲性分布。(C)共有序列的logo图。

人类基因组功能元件与弯曲性之间的关联:本文探究了在四种不同人类组织中的超级增强子与DNA弯曲性的关联关系。超级增强子负责驱动各种人体组织的高水平转录,而DNA弯曲在人类染色质组织中起着至关重要的作用。为了探索DNA弯曲性和超级增强子之间的相互关系,本文可视化了四个人体组织中(大脑、心脏、皮肤和血液)超级增强子的起点、中心(起点和终点的中间位置)和终点周围 DNA 弯曲性的动态波动,如图3(A)所示,在超级增强子的起始位点之前,弯曲性能保持相对稳定,但在这些位点之后,弯曲性能急剧增加。同样地,在超级增强子的末端位置之前观察到可弯曲性显着下降,然后在这些点之后稳定下来。

044f6475ab13d45c475df50742610a38.jpeg

有趣的是,DNA弯曲性在这四种人类组织中似乎保持一致,而中心区域周围没有任何显着变化。这些发现表明,超级增强子可能介导特定区域的DNA循环,以激活某些生物功能。本文使用人类皮肤内与超级增强子相关的转录因子( transcription factor) 来研究转录因子与DNA弯曲性之间的关联关系。图3(B)的左图显示了所有22条人类染色体上所有转录因子结合位点处的平均弯曲性。令人惊讶的是,在转录因子的精确结合位点处,可弯曲性显着增强。与相邻区域相比,结合位点处的某些 转录因子,如SP1显示出较高的弯曲性(如图3 (B)中),而某些转录因子,如 NHLH1则显示出显着降低的弯曲性(如图3(B)右图)。一些研究表明,采用定相分析和循环排列,证明SP1家族的蛋白质会引发DNA的严重变形。而NHLH1转录结合处的僵硬性可能归因于其抑制某些有丝分裂后细胞重新进入细胞周期的内在特征。

bdcb5fe024b022d631b46462d3fe92fb.png

图3: MIXbend预测的DNA可弯曲性分布。(A)MIXBend预测的超级增强子的起始、中心(起始位点和终止位点的中间位置)和终止位点在四种人类组织上的平均可弯曲性得分。(B)所有转录因子、SP1和NHLH1的结合位点的平均可弯曲性得分,分别以转录因子结合位点为中心。

04

总结

9e6e133b8e8e00a2c3aea3e78a13a107.jpeg

了解DNA的弯曲性对于揭示染色质结构和转录调控过程至关重要,尤其是弯曲的DNA环在其中扮演着关键角色。本研究创新性地引入了一种新型自监督预训练框架——MIXBend。该框架综合考虑了DNA序列的特征和理化属性,借助于高效的大型语言模型DNABERT,并提出了一种基于对比学习的k-mer序列与理化性质匹配机制,有效预测DNA的弯曲性。通过将MIXBend模型应用于人类基因组DNA,研究发现,在超级增强子区域内,DNA的可弯曲性明显提高。这一发现揭示了超级增强子区域内的基因组结构相对松散,从而有助于促进转录因子的结合和后续的转录调控过程。本研究是首次在人类基因组中,以超级增强子为背景探索DNA可弯曲性与基因组结构的关系。这些发现为预测新的调控序列和理解人类基因组中的基因组结构提供了新的视角。文章认为,MIXBend的提出将为未来的相关研究提供强大的动力和广阔的应用前景。

*原文链接:https://doi.org/10.1093/nar/gkae099

唐少军教授简介

b4fa9d970f39d8c2fd02e7023cc85fcf.png

唐少军教授,香港科技大学(广州)系统枢纽生命科学与生物医学工程学域助理教授、香港科技大学EMIA学部助理教授、香港科技大学生命科学部联署助理教授。唐博士本科毕业于中山大学生命科学学院,于美国佛罗里达大学获得计算机工程硕士及生物信息学博士学位。随后唐博士在哈佛医学院从事博士后研究,并在美国乔治城大学医学院任助理教授。

唐博士的研究主要集中在基因组、蛋白组大数据分析、生物信息软件和数据库开发。在神经退行性疾病、肿瘤、自体免疫病等领域从事广泛的研究。通过基因组、蛋白组、表观组和医学影像等数据的分析研究,来认识疾病发生的分子机制。唐博士的主要研究工作曾发表在多种顶级期刊中,如《Nucleic Acids Research》《BMC Medicine》《Molecular & Cellular Proteomics》《Research》《BMC Bioinformatics》《journal of internal medicine》等。

88d46cb3d8a4b517a88bafbb63bb3a6b.png

由香港科技大学主理出品的【教授专栏】,汇集来自不同领域教授的学术成果、前沿论断及知识科普,用最新鲜的视角解读社会动态,以最前沿的角度解释科技奥秘。期待通过香港科技大学的平台,聚合更多新锐观点,打造出一期又一期生动又深刻的【教授专栏】!

-end-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值