人工智能与生物信息组学 || 1. 生物多组学基础与数据库 || 1.1 生物多组学基础知识

生物多组学基础知识

1. 生物信息基本组件

1.1 细胞

一个完整的细胞是由细胞膜、细胞质、细胞器和细胞核组成的。

细胞的外层是由蛋白质和磷脂经过巧妙装配而成的双层膜,称为细胞膜。如果把细胞膜比作一个独立的国家,那么细胞膜就相当于一个国家的边境线。边境线上除设立边防哨所,还会设立海关,边防哨所和海关既保卫着国家的安全,也负责对外的人员和物资交流。同样细胞膜既保卫着细胞的安全,又依靠这些“关卡”有选择性地控制着多种物质的进出。细胞膜一旦被破坏,细胞也就不存在了。

细胞膜里边有细胞质,细胞质内有多种细胞器,如线粒体、叶绿体、溶酶体、核糖体、高尔基体、内置网等。

在这里插入图片描述

线粒体是一个能量转换站。大家都知道,如果没有发电厂,不管你烧掉多少煤炭也不会使电灯发光,因为煤炭燃烧时放出的热不能转变成电能。发电厂就是使热能转变为电能的能量转换站,而线粒体专门把化学能转化成生物能的转换站。俗话说“人是铁,饭是钢,一顿不吃饿得慌”。为什么人不吃饭会饿得慌呢?这是因为缺少了生物能。饭里储藏着化学能,这种化学能不能被人体直接利用,而细胞中的线粒体能使食物中的化学能转变为生物能;随后把生物能储存在一种名为ATP(腺苷三磷酸)的物质中。ATP就像一个个微型能量仓库,随时为生物体提供合适的能量。

生物体为了生存一定要摄取食物,好比人要定时进食,否则就会饿死。但是,进入体内的食物未必都有利于人体健康,食物中往往也夹杂着一些有害物质。此外,人体在进食过程中,除从食物中得到营养外,同时也会产生一些废物,如氨、自由基等,要是细胞不能及时排出废物和毒物,那么细胞就会变成“垃圾场”。幸好,细胞里存在着溶酶体、过氧化物酶体等细胞器。这些细胞器犹如专负责环境卫生的清洁工,不但能够把食物中的有毒物质和食物分解后的废物清除出细胞,而且还能把细菌、病毒等等清除掉。

核糖体是细胞质内的另一种细胞器,这个细胞器是蛋白质的合成工厂或车间,要是细胞中没有核糖体,那么蛋白质就无法合成。

1.2 细胞核-操纵细胞活动的司令部

在活细胞内部,各种细胞器能有条不紊地发挥着各自的功能,是因为活细胞内部有个操纵细胞器活动的核心,这个核心就是细胞核。如果一个受精卵的细胞核被破坏了,这个受精卵就不可能发育成新个体,去核后的单细胞生物即使还能再活几天,也不能再摄取食物,不能生殖,终将死去。

真核生物的细胞中,除少数特殊的细胞(如人类的成熟红细胞)无核外,所有的细胞都有核,但核的数目和大小则因生物的种类不同而有差异。细胞不分裂时,核的形状大多为球形,由核膜、核质和染色质组成。
如果我们把细胞比作一个独立国家的话,那么细胞核就是国家的“最高统帅部”。在自然界,既有由一个细胞构成的单细胞生物,如变形虫,也有由成千上万亿个细胞构成的多细胞生物,如哺乳动物。在多细胞生物体内,由于细胞向不同方向发展(分化),结果形成了具有特殊功能的多种细胞,它们的形状虽然千姿百态,大小也相差很大,但是都存在着细胞核,细胞内高度复杂而有序的生命活动,都是在细胞核这个最高统帅部的统一指挥下进行的。
在这里插入图片描述

1.3 染色体

染色体是细胞核中的线状结构,由DNA和蛋白质组成。它们携带着遗传信息,是遗传物质的载体。在人类细胞中,通常有23对染色体,每对染色体中的一条来自母亲,一条来自父亲。这些染色体包含了大约30,000到40,000个基因,这些基因控制着人体的各种特征和功能。

染色体在细胞分裂时扮演着重要角色。在有丝分裂过程中,染色体复制并分配到两个新的细胞中,确保遗传信息的传递。在减数分裂中,染色体数量减半,形成具有单套染色体的生殖细胞(精子或卵子),这样在受精时,后代的染色体数量会恢复到正常水平。

染色体异常,如染色体数量的增加或减少,或者染色体结构的改变,都可能导致遗传疾病或发育问题。例如,唐氏综合症是由于第21对染色体出现三体性(即有三条而非正常的两条)引起的。
在这里插入图片描述

1.4 DNA

DNA,全称为脱氧核糖核酸(Deoxyribonucleic Acid),是生物体内存储遗传信息的分子,由四种核苷酸组成:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。这些核苷酸通过磷酸二酯键连接成两条互补的链,形成双螺旋结构。DNA在细胞分裂时复制自身,确保遗传信息的传递。DNA还参与蛋白质的合成过程,通过转录和翻译将遗传信息转化为生物体的功能性分子。DNA的研究对于理解生命的本质、遗传病的诊断和治疗、以及生物技术的发展都具有重要意义。

DNA的双螺旋结构是由两条反向平行的链组成,它们通过碱基配对相互结合。以下是DNA双螺旋结构形成的基本步骤和原理:

  • 磷酸骨架:DNA分子由两条长链组成,每条链都有一个磷酸骨架,由交替的磷酸基团和脱氧核糖构成。磷酸基团带有负电荷,而脱氧核糖是中性的五碳糖。
  • 碱基配对:每条链上的核苷酸含有一个碱基,DNA有四种碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。碱基之间通过氢键相互结合,形成碱基对。A与T之间形成两个氢键,而C与G之间形成三个氢键。
  • 互补配对:DNA链的碱基遵循互补配对原则,即A总是与T配对,C总是与G配对。这种配对是由于碱基的形状和大小决定的,使得每条链的碱基序列是互补的。
  • 螺旋结构:两条链的碱基配对后,由于磷酸骨架的负电荷相互排斥,链的内侧形成碱基对,而外侧是磷酸骨架。这种结构使得DNA形成一种稳定的螺旋形状,通常称为B-DNA,是最常见的DNA构型。
  • 维持稳定:DNA双螺旋结构的稳定性不仅依赖于碱基间的氢键,还依赖于碱基堆叠之间的范德华力(一种较弱的分子间作用力),这种力使得碱基平面紧密堆叠在一起,增加了双螺旋的稳定性。
  • 右手螺旋:DNA的双螺旋通常是右手螺旋,即如果你从螺旋的一端看向另一端,螺旋会以顺时针方向上升。
  • DNA的这种结构不仅保证了遗传信息的存储和复制的准确性,还使得DNA能够在细胞分裂时被精确地复制和传递给后代细胞。
    在这里插入图片描述

1.5 基因

基因是DNA分子上的一段特定序列,它包含了制造一个特定蛋白质或RNA分子的指令。基因是遗传信息的功能单元,它们在细胞中表达,指导生物体的发育和维持其正常功能。基因是DNA的一部分,是DNA分子上具有特定功能的片段。一个DNA分子可以包含许多基因,这些基因沿着DNA链分布。

基因的表达:基因通过转录过程生成mRNA(信使RNA),mRNA随后在翻译过程中被用来合成特定的蛋白质。蛋白质是细胞的功能性分子,执行许多生物学功能,如催化生化反应、提供结构支持、传递信号等。

基因的调控:基因的表达受到复杂的调控机制控制,这些机制可以是转录因子、表观遗传修饰、RNA干扰等,它们决定了基因何时、何地以及在何种程度上被表达。

简而言之,DNA是包含所有遗传信息的分子,而基因是DNA上负责特定功能的片段。每个基因都编码一个特定的蛋白质或RNA分子,这些分子在生物体中发挥重要作用。

1.6 RNA

DNA(脱氧核糖核酸)和RNA(核糖核酸)是两种核酸,它们在生物体中扮演不同的角色,并且在结构上有几个主要区别:

核糖与脱氧核糖:DNA和RNA的主要区别在于它们的糖组分。DNA含有脱氧核糖,而RNA含有核糖。脱氧核糖与核糖的主要区别在于脱氧核糖的2’位缺少一个氧原子。
碱基:DNA由四种碱基组成:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)。RNA也由四种碱基组成,但胸腺嘧啶(T)被尿嘧啶(U)所取代,其余三种碱基相同。

  • 链的结构:DNA通常是双链结构,形成双螺旋,而RNA通常是单链结构。虽然RNA也可以形成双链,但在生物体中,RNA主要作为单链分子发挥作用。
  • 稳定性:由于DNA的双链结构和碱基配对的稳定性,DNA比RNA更稳定,更适合作为遗传信息的长期存储。RNA由于其单链结构,更容易发生结构变化,这使得RNA在某些生物学过程中具有灵活性。
  • 功能:DNA的主要功能是存储遗传信息,并在细胞分裂时复制自身。RNA的功能更为多样,包括作为mRNA(信使RNA)传递遗传信息,作为tRNA(转运RNA)和rRNA(核糖体RNA)参与蛋白质合成,以及作为某些酶的组成部分或在基因表达调控中发挥作用。
    转录过程:DNA通过转录过程生成RNA。在这一过程中,DNA的一条链作为模板,合成互补的RNA分子。由于DNA中的T与RNA中的U不同,转录后的RNA分子与DNA模板链是互补的。
  • 修饰和编辑:RNA分子在生物体中可以经历多种修饰和编辑过程,如剪接、编辑和化学修饰,这些过程可以改变RNA的功能和稳定性。而DNA的修饰通常与基因表达调控和DNA修复有关。

这些结构上的区别使得DNA和RNA在生物体中各自承担不同的生物学功能,并在遗传信息的传递和表达中发挥关键作用。

RNA的产生主要通过一个称为转录的过程实现,该过程涉及到多种生物分子和复杂的生物机制。以下是RNA产生的主要步骤:

  • 转录起始:转录开始于细胞核内的DNA模板,特定的区域称为启动子,这里会聚集转录因子和共激活因子。RNA聚合酶II被募集到启动子区域,形成RNA转录复合体
  • RNA链的合成:RNA聚合酶沿着DNA模板移动,通过5’至3’方向合成互补的RNA链。这个过程中,RNA聚合酶将核苷酸逐个添加到新合成的RNA链上
  • 转录后加工:新合成的RNA(前体RNA)需要经过一系列的加工步骤,包括5’端加帽、3’端加尾、剪接内含子、连接外显子等,以形成成熟的mRNA
  • mRNA剪接:在真核生物中,前体mRNA包含内含子和外显子。剪接过程移除内含子,并将外显子连接起来,形成连续的mRNA序列
  • RNA编辑:某些情况下,RNA分子在转录后会经历编辑过程,其中特定的核苷酸被修改或替换,从而改变最终蛋白质的氨基酸序列
  • RNA出核:成熟的mRNA通过核孔从细胞核转运到细胞质中,准备进行翻译过程
  • RNA稳定性与降解:细胞质中的mRNA分子受到RNA结合蛋白的调控,这些蛋白可以影响mRNA的稳定性和翻译效率。mRNA的生命周期最终以降解结束,以调控蛋白质的生产
  • RNA复制:在某些RNA病毒中,RNA分子还可以作为模板,通过RNA依赖的RNA聚合酶进行复制,生成更多的病毒RNA

这些步骤确保了遗传信息从DNA准确地传递到RNA,并为后续的蛋白质合成提供模板。RNA的合成和加工是基因表达调控的关键环节,对维持细胞功能至关重要。

1.7 细胞、基因、RNA之间的关系

细胞、基因和RNA之间存在着密切的关系,它们共同构成了生物体的遗传和表达机制:

细胞是生物体的基本结构和功能单位。所有生物体都是由一个或多个细胞组成的,细胞执行着生命活动所需的各种功能。

基因是DNA分子上的一段特定序列,它包含了制造一个特定蛋白质或RNA分子的指令。基因是遗传信息的基本单位,它们位于细胞的染色体上。

DNA(脱氧核糖核酸)是生物体内的主要遗传物质,它包含了构成基因的核苷酸序列。DNA分子是双链螺旋结构,负责存储和传递遗传信息。

RNA(核糖核酸)是DNA的转录产物,它在基因表达过程中起着至关重要的作用。RNA有多种类型,包括mRNA(信使RNA)、tRNA(转运RNA)、rRNA(核糖体RNA)等,它们参与蛋白质的合成过程。

  • 基因与DNA的关系:基因是DNA的一部分,每个基因都编码一个特定的蛋白质或RNA分子。DNA通过其上的基因序列携带遗传信息。
  • DNA与RNA的关系:DNA通过转录过程生成RNA。在这一过程中,DNA的特定基因序列被复制成mRNA分子,mRNA随后离开细胞核,进入细胞质。
  • RNA与蛋白质的关系:mRNA携带着来自DNA的遗传信息,这些信息被用于指导蛋白质的合成。在翻译过程中,mRNA上的遗传密码被tRNA识别并转换成特定的氨基酸序列,最终形成蛋白质。
  • 细胞与基因的关系:细胞内含有基因,基因携带的遗传信息指导细胞内各种蛋白质的合成,这些蛋白质决定了细胞的结构和功能。
  • 细胞与RNA的关系:细胞是RNA合成和功能的场所。细胞核负责RNA的合成,而细胞质则是RNA翻译成蛋白质的地方。
  • 基因表达:基因表达是指基因信息被转录和翻译成蛋白质的过程。这个过程包括DNA的转录生成RNA,以及RNA的翻译生成蛋白质。

这三种生物分子—细胞、基因和RNA—相互依存,共同参与了生物体的生长、发育、遗传和对环境变化的响应。了解它们之间的关系有助于我们深入理解生命科学的基本原理。

1.8 基因表达谱

在生物学和生物信息学中,基因表达通常不被视为一个数学上的向量。然而,当涉及到数据分析和计算生物学时,基因表达数据可以被表示为向量或矩阵的形式,以便于进行数学和统计分析。
在单细胞RNA测序(single-cell RNA-seq)等高通量基因表达分析技术中,每个细胞的基因表达水平可以被量化,并且可以表示为一个高维空间中的点。在这种情况下,每个细胞的基因表达谱可以被视为一个向量,其中向量的每个维度对应一个特定基因的表达水平。所有细胞的表达向量可以组成一个矩阵,其中行代表单个细胞,列代表基因。
例如,如果我们有3个基因和4个细胞,每个细胞的基因表达水平可以表示为一个向量:

细胞1: [表达水平基因1, 表达水平基因2, 表达水平基因3]
细胞2: [表达水平基因1, 表达水平基因2, 表达水平基因3]
细胞3: [表达水平基因1, 表达水平基因2, 表达水平基因3]
细胞4: [表达水平基因1, 表达水平基因2, 表达水平基因3]

将这些向量组合起来,我们得到一个4x3的矩阵,其中每一行代表一个细胞的基因表达谱。
在这种表示中,基因表达数据的向量化使得可以使用各种数学和统计方法来分析数据,如聚类分析、主成分分析(PCA)、t-SNE等,这些方法有助于揭示细胞类型、状态和它们之间的关系。因此,虽然基因表达本身是一个生物学过程,但在数据分析的上下文中,它可以被有效地表示为向量或矩阵。

2. 组学

细胞 -> DNA -> RNA -> 蛋白质的转录过程
https://b23.tv/S4IjPFY

生物信息学p5

组学 (omics) 主要包括:转录组学(transcriptomics)、单细胞组学、蛋白质组学、基因组学、代谢组学、微生物组学等

多组学数据融合研究

2.1 转录组学

转录组是指细胞内转录产物的集合,包括信使 RNA (message RNA, mRNA)、核糖体 RNA、转运 RNA 以及 非编码 RNA (non-coding RNA, ncRNA),对于能被翻译成蛋白质的编码部分和非编码部分的功能及相互关系的研究就是转录组的任务。

转录组学(transcriptome) 的概念是由 Velculescu 等人在1997年首次提出。转录组学是对细胞在某种条件下所有转录产物进行的系统研究,它从一个细胞中的基因组全部信使 RNA (message RNA, mRNA) 水平出发来研究基因表达情况。转录组学的研究作为一种宏观的整体论方法改变了以往选定单个基因或少数几个基金零打碎敲式的研究模式,将基金组学代入了一个全新的高速发展时代。

以 DNA 为模板合成 RNA 的转录过程是基因表达的第一步,也是基金表达调控的关键环节。基因表达是指基因携带的遗传信息转变为可辨别的表型数据的整个过程。与基因组不同的是,转录组的定义包含了对时间和空间的限定。同一个细胞在不同的生长时期冀生长环境下,其基因表达情况是不完全相同的。

人类的基因组仅有1.5%的核酸序列为蛋白质,其余不编码蛋白质的核酸序列大多转录为非编码 RNA,RNA 是负责信息传递及基因调控的重要物质,包括微小 RNA (microRNA, miRNA),长链非编码 RNA (long non-coding RNA, lncRNA) ,以及循环 RNA (circular RNA, circRNA). 细胞内存在上千种特异的 ncRNA,在疾病领域,ncRNA 已经被鉴定为高发癌症中的癌症驱动因此和肿瘤抑制因子。

miRNA 是一种长度 21~25个核苷酸的单链 ncRNA,是基因表达的重要调节剂。miRNA 突变、miRNA 的生物合成、miRNA与其靶向 miRNA 的功能失调可能会导致各种疾病。研究发现,miRNA 的表达改变与癌症的发生发展相关,miRNA具有组织特异性和表达阶段性,一半以上定位在染色体容易发生改变的区域,具有高度的序列保守性跳空着人类大量的基因,参与了如先天性心脏病、帕金森、智力缺陷等疾病的病理生理过程。

lncRNA 是长度大于200个核苷酸的 ncRNA,具有 mRNA 样结构,目前认为 lncRNA可以从三个水平参与基因表达的调控:表观修饰水平调控、转录水平调控、转录后水平调控。

2.2 单细胞组学

细胞作为生命最基本的一个单元概念,是生命活动的基石。单细胞组学使用单细胞转录组等多组学联合分析,全面体现细胞生命进程的变化。相比常规的细胞群体研究,单细胞组学研究可以解释更多细胞类型和亚群的多样性。通过使用转录组的虚技术 (RNA-seq) 测定不同时刻细胞的转录本,有可能弄清复杂的细胞时间和不同生物学过程所需的时间。

2.3 空间组学

空间组学技术是通过量化数十到数百个基因、转录物或蛋白质,空间组学能够在自然组织或者细胞结构的背景下收集有价值的分子、细胞和微环境信息。2020年5月,来自美国的研究人员在 Matrix Biology 发表综述论文,改论文概述了目前可用的空间转录组学和空间蛋白质组学方法,并进一步描述了应用这些方法来提高对细胞外基质呈现为细胞生物学的理解的最近研究。多重空间组学将有助于通过从多个空间尺度获得信息来解释细胞复杂性,有助于理解整体细胞表型/状态,细胞与细胞之间的相互作用,以及这些分子特性如何与各自的组织结构想联系。空间转录组学方法允许在空间中检测 RNA 转录物,这些方法已用于研究各种组织和器官中基因表达的空间分布,包括大脑、心脏、胰腺和皮肤。然而,空间组学技术还需要继续提升和发展,例如,在给予空间图像的蛋白质组学中,每个图像周期的构建库收到条形码、荧光染料或稀有金属等数量的限制;目前的空间组学方法都不能在活体外或者或体内对细胞进行多空间组学研究等。

2.4 时空组学

时空组学是对当前组学研究的最新进展,是一种将不同时刻、不同位置细胞上组学表达的信息整合起来研究的组学。过去人们知道生命是按照遗传信息也就是 DNA 来规划自己生命活动的,而时空组学弥补了这一研究空白。这一组学将有益于人们去研究遗传疾病在病人身上是何时由何种刺激导致基因突变并转录的,时空组学将尝试并跟踪这一变化。2021年时空组学被 Natural Methods 评为2020年度技术。

3. 生物数据资源

美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)

https://www.ncbi.nlm.nih.gov

高通量基因表达数据库 (gene expression omnibus, GEO)

https://www.ncbi.nlm.nih.gov/geo

3.1 细胞间的交叉通信 - crosstalk

在生物学中,“crosstalk”(串话或交叉通信)是指不同信号通路之间或细胞之间的相互作用和通信。这种通信在生物体内有着重要的意义,具体表现在以下几个方面:

  • 细胞分化和发育:在胚胎发育过程中,细胞间的串话决定了细胞的分化方向和最终命运。通过信号传递,细胞能够协调彼此的活动,确保发育过程的正常进行。
  • 组织和器官功能协调:成熟的生物体中,细胞间的通信有助于组织和器官之间的协调工作。例如,免疫细胞通过细胞间通信协调免疫反应,保证对病原体的有效防御。
  • 维持体内平衡:细胞间的通信在维持体内平衡(如激素调节、代谢平衡和电解质平衡)中起关键作用。不同细胞和器官通过信号分子传递信息,共同调节生物体的内部环境。
  • 应对外界刺激:生物体在应对外界环境变化时,细胞间的串话能够迅速传递信息,使生物体做出相应的反应。例如,在伤口愈合过程中,不同类型的细胞通过通信协调修复过程。
  • 疾病和病理过程:细胞间的异常通信可能导致各种疾病的发生,如癌症、糖尿病和神经退行性疾病。研究细胞间通信机制可以帮助理解这些疾病的发生发展,并开发新的治疗策略。

总之,细胞间的串话是生物体内复杂生物过程的重要基础,通过协调细胞的活动,确保生物体的正常发育、功能和应激反应。

3.2 配体-受体关系

配体-受体(L-R)相互作用是指细胞间通过配体和受体之间的结合和相互作用进行信息传递的过程。在这个过程中:

  • 配体(Ligand):通常是由一个细胞分泌的信号分子,可以是蛋白质、肽、激素、化学物质等。
  • 受体(Receptor):位于另一细胞表面或细胞内部的特定蛋白质,能够识别并结合相应的配体。

当配体与受体结合时,会触发一系列细胞内信号传导通路,最终导致细胞功能的改变或特定反应的发生。这种相互作用在多种生物过程中起关键作用,包括细胞生长、分化、免疫反应和代谢调节等。

具体来说,配体-受体相互作用是细胞通讯的重要机制,通过这种机制,细胞能够接收和响应来自其他细胞的信号,从而实现复杂的生物过程和功能协调。

基因表达

基因表达是指通过转录和翻译等过程将基因中的遗传信息转换为功能性蛋白质或RNA分子的过程。它是一个多步骤的过程,主要包括以下几个阶段:

  1. 转录(Transcription):在细胞核内,DNA上的特定基因被转录为信使RNA(mRNA)。RNA聚合酶是该过程中的关键酶,它结合到DNA上的启动子区域并催化RNA的合成。

  2. RNA加工(RNA Processing):转录产生的初级mRNA(前体mRNA)需要经过一系列加工步骤,包括加帽、加尾和剪接,最终形成成熟的mRNA。剪接过程中,内含子被移除,外显子拼接在一起。

  3. 翻译(Translation):成熟的mRNA从细胞核运送到细胞质,在核糖体上根据mRNA的密码子序列合成多肽链。tRNA(转运RNA)携带对应的氨基酸,并根据mRNA的序列进行正确的配对。

  4. 蛋白质加工与修饰:新生的多肽链在翻译后折叠成特定的三维结构,可能还会经过化学修饰,如磷酸化、糖基化等,以获得其最终的活性功能。

基因表达是细胞功能的核心,它受到严格调控,确保在正确的时间和地点产生适当的基因产物。调控机制包括转录因子的作用、表观遗传调控(如DNA甲基化和组蛋白修饰)、mRNA稳定性、翻译效率等。

在计算生物学和机器学习领域,基因表达数据分析往往涉及高维数据的处理和特征提取,常用方法包括聚类分析、主成分分析(PCA)以及基于机器学习的分类与预测模型。

基因表达可以表示为一个向量,但并不是基因表达本身,而是我们通过测量技术(如RNA测序或微阵列)得到的基因表达数据通常以向量的形式表示。在计算生物学或生物信息学的分析中,每个基因的表达水平可以看作是一个数值,多个基因的表达水平组合起来形成一个向量。

基因表达向量的概念

  1. 样本的基因表达向量:在一个生物样本中,假设我们测量了多个基因(例如10,000个基因)的表达水平,那么每个基因的表达值可以看作是一个特定数值,所有基因的表达水平形成了一个多维向量。对于每个样本,可以用一个向量来表示其基因表达情况。

    例如,假设有三个基因 ( G 1 , G 2 , G 3 ) ( G_1, G_2, G_3 ) (G1,G2,G3),其表达水平分别为 ( e 1 , e 2 , e 3 ) ( e_1, e_2, e_3 ) (e1,e2,e3),那么该样本的基因表达向量可以表示为:

    e = ( e 1 , e 2 , e 3 ) \mathbf{e} = (e_1, e_2, e_3) e=(e1,e2,e3)
    对于多个基因和样本,基因表达数据通常用矩阵表示,每一行表示一个样本,每一列表示一个基因的表达值。

  2. 群体的基因表达矩阵:如果我们对多个样本进行基因表达测量,结果通常会表示为一个矩阵,其中每一行表示一个样本的基因表达向量,每一列表示一个基因。例如,一个 1000 × 10000 的矩阵可以表示 1000 个样本中 10000 个基因的表达情况。

  3. 特征空间:在机器学习和统计分析中,基因表达向量可以被看作是一个高维空间中的点,每个基因是该空间中的一个维度。通过这种方式,可以对样本进行聚类、分类、降维等操作,以理解不同样本的基因表达模式差异。

应用:

基因表达向量是很多生物数据分析任务的基础。例如:

  • 差异表达分析:比较不同条件(如健康与疾病状态)下的基因表达差异。
  • 聚类分析:基于基因表达向量对样本或基因进行聚类,以发现具有相似表达模式的群体。
  • 分类模型:基于基因表达向量构建分类模型,预测样本的分类,如疾病状态或分子亚型。

因此,尽管基因表达本身并非向量,但基因表达数据通常以向量或矩阵的形式用于计算和分析。

基因调控网络 (Gene Regulatory Networ,GRN)

基因调控网络(Gene Regulatory Network, GRN)是用于描述基因如何通过复杂的相互作用和调控机制来控制细胞内基因表达的网络模型。它们通过一组调控元件(如转录因子、非编码RNA、信号分子等)和基因之间的关系,展现基因表达如何在细胞中受到调节。

基因调控网络(Gene regulatory network, grn)是反映基因间表达关系的生物网络(Davidson and Levine, 2008)。通常,这些相互作用用图形表示,节点作为基因,边缘作为调节关系。系统生物学最重要的目标之一是准确描述细胞内的调节关系。grn的重建可以阐明基因作用的基本机制,有助于了解细胞功能,了解复杂疾病的机制(Iglesias-Martinez et al., 2016;Zhang等人,2015)。高通量技术的发展为估计这种关系提供了大量的基因表达数据。在过去的一段时间里,许多理论和实践研究在探索基因调控网络和共表达网络方面取得了概念性进展。已经提出了几种利用基因表达数据构建基因调控网络的方法,旨在提高grn的有效性和准确性(Ud-Dean and Gunawan, 2016;Wu et al., 2016;Yu等人,2017)。它们通常可以分为几类,包括贝叶斯网络(Lan et al., 2016;索恩,2016),回归模型(Pirgazi和Khanteymoori, 2018;熊和周,2012),相关网络(Mohamed Salleh et al., 2015)和整合

组成部分

基因调控网络通常由以下几种元素组成:

  1. 基因(Genes):网络中的节点代表基因,每个基因表达的产物(如蛋白质或RNA)可能会影响其他基因的表达。

  2. 调控因子(Regulators)

    • 转录因子(Transcription Factors, TFs):它们是与DNA结合并影响特定基因转录的蛋白质。转录因子可以激活或抑制目标基因的表达。
    • 非编码RNA(Non-coding RNA, ncRNA):如miRNA、lncRNA等,它们通过不同机制调控基因表达。
    • 表观遗传调控元件:包括DNA甲基化、组蛋白修饰等,通过影响染色质结构和基因可接近性来调控基因表达。
  3. 调控关系(Regulatory Interactions):网络中的边(links)代表不同基因或调控因子之间的调控关系。调控关系可以是激活(促进基因表达)或抑制(阻止基因表达)。例如,一个转录因子可能通过结合到目标基因的启动子区域,影响目标基因的转录水平。

基因调控网络的类型

  1. 转录调控网络:转录因子通过与DNA结合调控基因表达。这类网络关注转录因子与基因之间的直接调控关系。

  2. 信号传导调控网络:信号传导通路通过外部或内部信号触发一系列蛋白质的相互作用,最终影响某些基因的表达。这类网络包括膜受体、信号传导分子和转录因子等。

  3. 表观遗传调控网络:通过表观遗传机制(如DNA甲基化、组蛋白修饰等)来调控基因表达,影响染色质的可接近性。

  4. miRNA调控网络:miRNA通过结合到mRNA上,阻碍其翻译或导致其降解,从而间接调控基因表达。

基因调控网络的建模

由于基因调控网络的复杂性,研究人员常用计算方法和数学模型来重建这些网络,常见的方法有:

  1. 相关性分析:通过分析基因表达数据,检测基因表达水平之间的相关性,推断可能的调控关系。

  2. 贝叶斯网络:通过概率模型来捕捉基因间的调控关系,适合处理不确定性。

  3. 机器学习方法:如LASSO回归、随机森林、深度学习等,可以用于从高维基因表达数据中提取关键的调控关系。

  4. 动态模型:如常用的微分方程模型(ODE),可以用于模拟调控网络的动态行为。

基因调控网络的应用

  1. 理解生物系统的复杂性:通过基因调控网络,可以揭示生物体如何通过复杂的调控机制保持稳态或在外部环境变化时做出反应。

  2. 疾病研究:很多疾病(如癌症)的发生与基因调控网络的失调有关。通过构建和分析基因调控网络,可以帮助识别与疾病相关的关键调控因子或基因,进而开发新的治疗靶点。

  3. 个性化医学:基于基因调控网络的分析可以帮助预测个体对某种药物的反应或疾病的风险,推动个性化治疗的发展。

  4. 合成生物学:在设计和构建人工生物系统时,研究人员可以通过工程化基因调控网络来控制细胞行为和产物的合成。

总结

基因调控网络是揭示生物系统中基因表达如何调控、相互作用的重要工具。通过系统建模和数据分析,研究人员可以更好地理解细胞如何通过这些网络应对不同的生理和病理状态。这在生物学、医学和合成生物学等领域具有广泛应用。本质上基因调控网络推断是一个有向图。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值