关于生物信息学中的理论知识（1）

生信编程时光

已于 2024-03-02 09:51:53 修改

阅读量1.4k

点赞数 16

文章标签： python linux

于 2024-03-02 09:50:00 首次发布

本文链接：https://blog.csdn.net/m0_70373388/article/details/136410597

版权

生物理论知识

ATAC原理

ATAC-seq，染色质可及性反映了基因的转录潜能和调控状态，与基因表达和功能密切相关。ATAC-seq的原理是利用转座酶Tn5，将带有测序接头的DNA片段插入到开放的染色质区域，然后对这些DNA片段进行扩增和测序，得到染色质可及性的分布图谱
高通量测序技术主要还是基于二代测序来进行检测的。基于这个原理，我们对于高通量的检测主要还是DNA/RNA的检测。对于蛋白检测的话，目前是通过质谱来做。
https://www.bilibili.com/video/BV1wy4y1b76s/?spm_id_from=333.337.search-card.all.click&vd_source=eb80497efb6b1ef3f11b49ebaa9c25d4
看这个视频即可
Tn5转座酶可以得到染色质可及性的图谱，是因为它对染色质的开放程度有选择性。染色质的开放程度是由核小体和其他蛋白质对DNA的包裹和修饰所决定的。因此，Tn5转座酶可以在开放的染色质区域产生更多的测序接头，而在紧密的染色质区域产生更少的测序接头。通过对这些带有测序接头的DNA片段进行扩增和测序，我们就可以得到染色质可及性的分布图谱，反映了不同区域的染色质开放程度。
一句话：和chipseq Chip seq检测的染色质上的DNA，而ATAC seq是检测的，除了染色质上的那一段开放DNA没有结合组蛋白

转录本结构

顺式作用元件：启动子，增强子等
反式作用因子：衰减子，沉默子等
ipo 调节基因启动子操纵基因
转录因子结合位点包括启动子

单核苷酸多态性(Single Nucleotide Polymorphism,SNP)

指在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象,即SNP。包括单碱基的转换, 颠换、插入及缺失等形式

转录组lane是什么

转录组测序的高通量测序技术过程中，RNA样本需要被分成几个不同的“lane”，每个“lane”都是一个独立的测序通道，用于提高测序深度和样本处理能力。转录组lane通常是指这些独立的测序通道

转录组read type是什么

常见的read type包括单端50 bp、单端75 bp和单端100 bp等。在双端测序中，每个RNA分子通常在两个方向上测序，因此read type通常包括两个长度，分别表示两个方向上的测序长度。例如，一些常见的双端read type包括双端50 bp、双端75 bp和双端100 bp等。
除了单端和双端测序，还有一些其他的read type，如paired-end、mate-pair、stranded等。其中，paired-end测序和双端测序类似，不同之处在于paired-end测序通常会将RNA分子的两个端点分别测序，从而可以更准确地确定RNA分子的起始和终止位置。mate-pair测序则是一种特殊的paired-end测序，通常用于测序RNA分子的非常长的区域，例如基因组上的大片段。stranded测序则是一种特殊的测序技术，可以确定RNA分子的方向性，即RNA分子是从5’端到3’端的方向上合成的还是从3’端到5’端的方向上合成的

DNA聚合酶

真核生物DNA聚合酶也有多种不同的类型，其中最重要的是α、β、γ、δ和ε五种。它们在结构、功能和特性上也有所不同。
DNA聚合酶α主要负责引物的合成，它与启动因子形成复合体，在每个复制起点处添加一个短的RNA-DNA混合链。
DNA聚合酶β主要负责修复单链断裂的DNA，它具有5’→3’方向的外切酶活性，可以去除损伤碱基并填充缺口。
DNA聚合酶γ主要负责复制线粒体DNA，它具有3’→5’方向的外切酶活性，可以纠正错误配对。
DNA聚合酶δ主要负责延伸前导链，它与增殖细胞核抗原形成复合体，具有高速度和高保真度。
DNA聚合酶ε主要负责延伸后随链，它与增殖细胞核抗原形成复合体，具有高速度和高保真度

ATAC-seq可以分析表观遗传

因为它可以快速、高效、低成本地检测染色质的开放状态，从而揭示基因组上的潜在调控元件，如启动子、增强子、沉默子等，以及转录因子结合位点等。这些信息可以帮助我们理解基因的表达和功能是如何受到表观遗传的影响的。

rna测序的原理

RNA提取：从细胞或组织中提取总RNA或富集某一类型的RNA。
RNA降解：将RNA转化为单链cDNA，通常使用逆转录酶将RNA转录成cDNA。在逆转录反应中，引入带有标记的引物，例如oligo(dT)或随机引物，以便在后续的PCR扩增和测序中进行检测和定量。
文库构建：将单链cDNA转化为双链DNA，并加入适当的测序适配器序列。测序适配器序列是一段富含特定测序引物序列的DNA片段，用于在PCR扩增和测序过程中进行检测和定量。可以根据需要，使用不同的文库构建方法，例如单端测序和双端测序等。
PCR扩增：使用PCR扩增对文库进行增量，以便在后续的测序中获得足够的信号强度。
高通量测序：使用高通量测序技术（如Illumina、PacBio、Nanopore等）对文库进行测序。测序过程中，读取测序适配器序列的引物和转录本的序列信息，生成测序读取（read）。
数据分析：对测序数据进行质控、过滤、比对、转录本拼接、可变剪接、表达定量等分析，以便获得有关RNA样本中转录本表达和结构的信息。

单细胞RNA测序（scRNA-seq）

是一种利用高通量测序技术对单个细胞内的RNA进行定量和定性分析的方法。
单细胞捕获：将混合的细胞样本分离成单个细胞。如有限稀释法、流式分选法、激光切割法、显微操作法或微流控芯片法。

RNA提取和逆转录：将单个细胞内的RNA提取出来，并通过逆转录酶将其转化为cDNA。
文库构建和测序：将cDNA进行扩增、修复、接头连接等步骤，构建适合高通量测序平台的文库，并进行测序，可以使用不同的平台，如Illumina、PacBio或Oxford Nanopore。
数据分析：对测序得到的数据进行质量控制、比对、定量、标准化、降维、聚类、差异分析等步骤，得到单细胞的基因表达矩阵和相关的生物学信息，可以使用不同的软件和算法，如Cell Ranger、Seurat、Monocle等。

转录组学和基因组学两个方向的区别

转录组学主要研究的是某个特定时期或某种特定条件下细胞内所有的mRNA分子的种类和数量，即转录组
而基因组学则是研究整个基因组的结构、功能和演化。基因组学主要运用高通量测序技术研究基因组的序列信息，包括基因的位置、数量、结构等。

鸟枪法组装

是一种全基因组测序的方法，其中科学家将基因组分解成小片段，随机测序这些片段，然后使用计算方法将它们重新组装成完整的基因组。
全基因组鸟枪法，表示对整个基因组进行鸟枪法测序的方法。
转录组鸟枪法组装，表示对转录组数据进行鸟枪法组装的方法。

RNA聚合酶

真核生物RNA聚合酶有三种不同的类型，分别是RNA聚合酶I、II和III。它们在结构、功能和敏感性上有所不同。
RNA聚合酶I主要负责合成大部分的rRNA，
RNA聚合酶II主要负责合成所有的mRNA和部分的snRNA，
RNA聚合酶III主要负责合成所有的tRNA和部分的rRNA和snRNA

chip-seq

https://zhuanlan.zhihu.com/p/279354841
为什么有峰？如果在基因组的某个位置蛋白质结合的概率越大，那么该位置检测到的 DNA 片段堆叠的就会越高。
peak chip-seq峰为什么有峰因为chip-seq测的就是组蛋白结合的dna，dna含量越高，组蛋白修饰越多，DNA可以用来定位和定量组蛋白

转录组（transcriptome）

转录组（transcriptome）是指一个生物体细胞中所表达的全部转录产物的集合，包括RNA分子和其附属物如非编码RNA和可变剪接异构体等。

单细胞转录组测序和高通量测序数据的关系

转录组学是研究转录组的科学，它通过高通量测序等技术手段，全面地分析和比较不同组织、不同生理状态下的转录组，以了解基因表达调控的机制、寻找新的基因和代谢通路，为疾病诊断、治疗和新药研发提供基础数据。

单细胞转录组测序

是高通量测序技术的一种应用，是在单个细胞水平上对基因表达进行测量的技术。单细胞转录组测序利用高通量测序技术对单个细胞进行RNA测序，并对每个细胞的转录组进行分析，以揭示细胞间的差异、种类和功能。

SINE LINE

使用它们的全称，即长散布核元件（long interspersed nuclear element）和短散布核元件（short interspersed nuclear element），并用括号注明它们的缩写，例如：长散布核元件（line）和短散布核元件（sine）。它们可以将自身的RNA逆转录为DNA，并插入到基因组的其他位置。即非自主转座的反转录转座子，来源于RNA聚合酶III的转录物，它的平均长度约为300bp，平均间隔1000bp。
SINE在哺乳动物基因组中占有很大的比例，如人类基因组中有约130万个拷贝的Alu家族序列，占基因组的11%。SINE在物种进化、基因表达调节、基因组结构等方面都有重要作用。
SINE和LINE是两种不同的非LTR反转录转座子，它们在真核基因组中广泛存在，但有以下几个区别：
SINE比LINE短，一般只有300-500个碱基对，成簇分布，基因拷贝数更多，通常来源于tRNA或其他小RNA分子，不编码逆转录酶，SINE依赖于LINE的逆转录酶来实现自身的转座。
而LINE一般有6000个碱基对左右，成分散发布。LINE通常来源于RNA聚合酶II的转录物。LINE编码逆转录酶，可以自主地进行转座，line而sine需要借助line的逆转录酶和整合酶才能进行转座。
LINE-1和LINE-2序列。这些序列约占人类基因组的21%
LINE-1序列包含自己的启动子并编码两种开放阅读框蛋白 - ORF1是RNA结合蛋白和具有核酸内切酶和逆转录酶活性的ORF2。它们是LINE家族中最丰富的序列，占人类基因组的18%。大多数LINE-1序列在转录上是无活性的。人类基因组中的LINE-2序列存在高度缺陷，可以编码一种或两种ORF蛋白
SINE是活跃和非自主的TEs，由Alu和哺乳动物广泛穿插重复（MIR）元件（分别占人类基因组的11%和3%）代表。Alu序列的命名基于共享AluI限制性内切酶的共同切割位点。Alu序列是活跃的，但需要由LINE-1序列编码的逆转录酶。
最近已经表明，SINE可能形成更复杂的序列，这些序列被归类为SVA反转录转座子。SVA序列是通过耦合SINE，可变数量的串联重复和Alu反转录转座子形成的。SVA 还需要 LINE-1 表达式进行动员。这些序列约占人类基因组的0.1%，是最活跃的反转录转座子组。

反转录转座子(retrotransposon或retroposon)

指通过RNA为中介，反转录成DNA后进行转座的可动元件。这样的转座过程称为反转座作用(retrotrans—position)。

卫星序列

是一种高度重复的DNA序列，它们在真核生物的基因组中广泛分布，尤其是在染色体的着丝粒和端粒区域。卫星序列的重复单元一般由2-10个碱基对组成，成串排列，形成不同长度和类型的卫星DNA。卫星序列的碱基组成与其他DNA区域不同，因此在等密度梯度离心法中可以与主体DNA分离，形成一个或多个卫星带，故而得名。

密码子

起始密码子通常是AUG，GUG。
终止密码子标志，它们是UAA、UAG和UGA。

三种测序

https://www.bilibili.com/video/BV19p411o7r7?p=23&vd_source=eb80497efb6b1ef3f11b49ebaa9c25d4

CNV拷贝数变异。

拷贝数变异(Copy number variation, CNV)是由基因组发生重排而导致的, 一般指长度为1 kb 以上的基因组大片段的拷贝数增加或者减少, CNV 是基因组结构变异(Structuralvariation, SV) 的重要组成部分。CNV位点的突变率远高于SNP(Single nucleotide polymorphism)。

单词意思

Motif是一个英文单词，它有多种含义和用法，根据不同的领域和语境，一种生物学上的序列或结构特征，如DNA、RNA或蛋白质中具有特定功能或相似性的一段碱基或氨基酸序列
转录起始位点（TSS）