《生物信息工程》6-7章

第陆章 Overview of the next generation sequencing technology

6.1 What is Next Generation Sequencing Technology?

测序:把DNA上的核苷酸顺序测出来

第一代:

1. 二代测序技术简介

高通量 ; 序列短

6.2  Platform overview

6.2.1 Illumina Genome Analyzer

Illumina测序平台技术和测序原理

扩增技术: 桥式扩增

方法: 边合成边测序

扩增过程:

1:在样本里面获得DNA序列 ,序列两端接上接头(Adapters); 

2:   固定在装置上,处理成单链DNA; 

3:   把单链DNA变成桥式的结构,加入游离的四种碱基,把序列进行无限扩增;

4: 一次扩增后,将桥型竖直,再进行上述步骤进行扩增。

测序过程:边合成边测序

1:扩增过程结束以后,加上标记上颜色的四种碱基(A,C,G,T)

2: 边合成时,边用激光扫描,测其颜色和序列

3: 读出互补链的顺序,再通过碱基互补配对的原则,得出模板链的核苷酸顺序。

6.2.2 SOLiD: Sequence-by-ligation

SOLiD测序平台技术和测序原理
最大的区别

颜色的编码,SOLiD是双碱基编码,而Illumina是单碱基编码

过程:

人工合成

一个如下探针

一种颜色标识256个探针

前五个是正常的脱氧核苷酸,后面三个是通用碱基

前两个核苷酸探针决定标记的颜色是什么。

测序过程

 

一轮反应只知道颜色,而不知道碱基

设计引物,与接头进行碱基互补配对,加入1024种颜色探针,从待测序列的第一个到第八个bp,只有唯一一种颜色探针与其互补配对。

二次重复时,把引物往前错一位,把第一个位置留了下来,重复过程

优势

可以识别测序错误,可以分别是测序错误(只改变一个颜色)还是基因的突变(连续改变两个颜色),简单易操作

不足

工序繁琐

6.3 Biological applications

二代测序技术的生物学应用

测DNA
  • 从头测序
  • 基于参考基因组的重测序
  • 宏基因组(微生物)

测RNA
  • 基因的表达
  • miRNA和一些新的非编码RNA

研究蛋白质和DNA/RNA相互作用
  • ChIP-seq 转录因子和DNA结合位点的位置
  • CLIP-seq  RNA和蛋白质相互作用

表观遗传学
  • DNA 碱基化
  • 组蛋白修饰
  • 染色质结构
  • 核小体定位

DNA测序
  • 全基因组的测序(人和动物)
  • 癌症基因组研究
  • 靶向基因组测序(只测基因组的一部分)
  • 混合基因组测序
  • 拷贝数变异
  • 结构变异

RNA测序
  • 测基因的表达量

6.4 Data processing workflow

1. 二代测序数据分析基本流程

类别

大小

流程

2. 二代测序数据的质量分数

测序的质量
  1. 比对的质量
  2. 碱基的质量
  3. 识别的质量
质量分数

     p是测错的概率,acc是成功的概率

6.5 Sequence Alignments

1. 二代测序数据比对算法介绍

按照目的区分: 1:全局比对(从头比到尾);     2:局部比对(中间找到一个最佳匹配)

最佳匹配措施

比对上+1;没比对上+0;罚分:空位-3,扩展+0.1

算法设计

从矩阵的最后一个元素,往回回溯

如果有负分和0进行比对

2. 基于前缀树/后缀树的BWT短序列快速比对算法

是可以还原回去的

  

6.6 Genome assembly

6.6.1 K mer counting

K-mer频次计算方法和意义

基因组组装的第一步:计算长度为k的基因组出现的次数或频率

挑战
  • 计算量巨大
  • 测序可能导致出现错误
  • 将所有存储在内存困难
  • 存储在硬盘中困难
  • 开发并行技术去提高速度

 一次两次高,是测错导致的,去掉不影响结果

过程
  1. 对四个碱基进行编码 A(00),C(01),G(10),T(11)。
  2. 比对时,取编码小的

算法
  • 基于哈希表的算法   

常用算法

分而治之

不存在相同的 k-mers 在minmizer当中

升级

6.6.2 Genome Assembly

二代测序数据组装算法

从头组装

算法

贪心算法

出错

耗时

基于欧拉图的算法

使用K-mers 可以处理测序错误:出现错误就会出现气泡,产生分支

测错了的频次是很低的,通过频次可以区分杂合子和测试错误

过程
  1. 测序
  2. 构建布鲁因图
  3. 简化
  4. 错误移除

K的选择

第柒章 DNA-seq, RNA-seq and ChIP-seq

7.1  DNA-seq Introduction and Application

1. 基因芯片简介DNA-seq的基本原理与数据分析流程

方法:

2. 遗传变异与表型的概念

遗传变异

       

SNP

结构变异

研究原因

大部分变异不会引起疾病

并不是所有遗传变异都会引起疾病

7.2   DNA-seq Refined alignment

基因芯片简介DNA-seq精确比对的前提条件和方法

拿样本序列和参考基因组进行比对,比对错的地方进行局部重新比对即可

重比对的步骤

7.3   Variant identification

序列变异的识别算法

只使用于二倍体生物基因组

变异 

 纯和变异(变的一样) 杂合变异(部分一样,部分不一样)

措施

      

结构变异

通过显示器去测量重复度进行比对

7.4  Overview of RNA-seq experiments

1. 基因表达、RNA剪切的概念

功能

可以测基因表达的范围(等级)  ;  可变(选择性)剪切;  等位特异的表达                   

2. RNA-seq的基本原理

  1. 先逆转录成cDNA
  2. 打成片段
  3. 接上接头
  4. 测顺序
  5. 与参考基因组比对片段

得出的结果

1: 基因表达水平-----> 计算差异表达;  2:选择性剪切;  3:转录层面的变异;     4:非编码RNA

3. RNA-seq与基因微阵列的区别

好处
  • 不依赖于已知的基因结构 可以测(蛋白编码基因,非编码RNA,功能元件,基因融合)
差别

基因表达水平的范围

7.5  RNA-seq data analysis

1. RNA-seq数据分析流程

挑战
  • 序列比对
  • 转录组的重构
  • 表达水平的变量
序列比对

   

利用的工具

基因表达水平

影响条件

  • 基因长度
  • 测量深度
  • 基因表达的程度

2. RNA-seq代表性比对算法的基本原理

表达:

1:   取并集表达

2:取交集表达

差异表达分析

选择性剪切的问题

判断基因融合

基因融合问题判断

7.6   ChIP-seq

1. 蛋白质结合、染色质状态等概念

2. ChIP-seq的基本原理

例子:

生物学应用: 转录因子结合位点

组蛋白修饰

步骤

1:峰值检测

峰值的类型

          转录因子                                                                             RNA聚合酶

组蛋白修饰

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值