《生物信息工程》6-7章

晋济周

已于 2023-12-14 12:58:39 修改

阅读量227

点赞数 1

文章标签： r语言数据分析

于 2023-12-13 10:30:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_73895400/article/details/134963671

版权

本文详细介绍了下一代测序技术，包括Illumina和SOLiD平台的工作原理、生物应用，以及DNA-seq、RNA-seq和ChIP-seq的实验原理、数据处理流程和分析方法。重点关注了测序过程、数据质量、比对算法和基因组组装技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第陆章 Overview of the next generation sequencing technology

6.1 What is Next Generation Sequencing Technology?

测序：把DNA上的核苷酸顺序测出来

第一代：

1. 二代测序技术简介

高通量；序列短

6.2 Platform overview

6.2.1 Illumina Genome Analyzer

Illumina测序平台技术和测序原理

扩增技术：桥式扩增

方法：边合成边测序

扩增过程：

1：在样本里面获得DNA序列 ,序列两端接上接头（Adapters）；

2: 固定在装置上，处理成单链DNA；

3: 把单链DNA变成桥式的结构，加入游离的四种碱基，把序列进行无限扩增；

4：一次扩增后，将桥型竖直，再进行上述步骤进行扩增。

测序过程：边合成边测序

1：扩增过程结束以后，加上标记上颜色的四种碱基（A,C,G,T）

2：边合成时，边用激光扫描，测其颜色和序列

3：读出互补链的顺序，再通过碱基互补配对的原则，得出模板链的核苷酸顺序。

6.2.2 SOLiD: Sequence-by-ligation

SOLiD测序平台技术和测序原理

最大的区别

颜色的编码，SOLiD是双碱基编码，而Illumina是单碱基编码

过程：

人工合成

一个如下探针

一种颜色标识256个探针

前五个是正常的脱氧核苷酸，后面三个是通用碱基

前两个核苷酸探针决定标记的颜色是什么。

测序过程

一轮反应只知道颜色，而不知道碱基

设计引物，与接头进行碱基互补配对，加入1024种颜色探针，从待测序列的第一个到第八个bp，只有唯一一种颜色探针与其互补配对。

二次重复时，把引物往前错一位，把第一个位置留了下来，重复过程

优势

可以识别测序错误，可以分别是测序错误（只改变一个颜色）还是基因的突变（连续改变两个颜色），简单易操作

不足

工序繁琐

6.3 Biological applications

二代测序技术的生物学应用

测DNA

从头测序
基于参考基因组的重测序
宏基因组(微生物)

测RNA

基因的表达
miRNA和一些新的非编码RNA

研究蛋白质和DNA/RNA相互作用

ChIP-seq 转录因子和DNA结合位点的位置
CLIP-seq RNA和蛋白质相互作用

表观遗传学

DNA 碱基化
组蛋白修饰
染色质结构
核小体定位

DNA测序

全基因组的测序（人和动物）
癌症基因组研究
靶向基因组测序（只测基因组的一部分）
混合基因组测序
拷贝数变异
结构变异

RNA测序

测基因的表达量

6.4 Data processing workflow

1. 二代测序数据分析基本流程

类别

大小

流程

2. 二代测序数据的质量分数

测序的质量

比对的质量
碱基的质量
识别的质量

质量分数

p是测错的概率，acc是成功的概率

6.5 Sequence Alignments

1. 二代测序数据比对算法介绍

按照目的区分： 1：全局比对（从头比到尾）； 2：局部比对（中间找到一个最佳匹配）

最佳匹配措施

比对上+1；没比对上+0；罚分：空位-3，扩展+0.1

算法设计

从矩阵的最后一个元素，往回回溯

如果有负分和0进行比对

2. 基于前缀树／后缀树的BWT短序列快速比对算法

是可以还原回去的

6.6 Genome assembly

6.6.1 K mer counting

K－mer频次计算方法和意义

基因组组装的第一步：计算长度为k的基因组出现的次数或频率

挑战

计算量巨大
测序可能导致出现错误
将所有存储在内存困难
存储在硬盘中困难
开发并行技术去提高速度

一次两次高，是测错导致的，去掉不影响结果

过程

对四个碱基进行编码 A（00），C（01），G（10），T（11）。
比对时，取编码小的

算法

基于哈希表的算法

常用算法

分而治之

不存在相同的 k-mers 在minmizer当中

升级

6.6.2 Genome Assembly

二代测序数据组装算法

从头组装

算法

贪心算法

出错

耗时

基于欧拉图的算法

使用K-mers 可以处理测序错误：出现错误就会出现气泡，产生分支

测错了的频次是很低的，通过频次可以区分杂合子和测试错误

过程

测序
构建布鲁因图
简化
错误移除

K的选择

第柒章 DNA-seq, RNA-seq and ChIP-seq

7.1 DNA-seq Introduction and Application

1. 基因芯片简介DNA-seq的基本原理与数据分析流程

方法：

2. 遗传变异与表型的概念

遗传变异

SNP

结构变异

研究原因

大部分变异不会引起疾病

并不是所有遗传变异都会引起疾病

7.2 DNA-seq Refined alignment

基因芯片简介DNA-seq精确比对的前提条件和方法

拿样本序列和参考基因组进行比对，比对错的地方进行局部重新比对即可

重比对的步骤

7.3 Variant identification

序列变异的识别算法

只使用于二倍体生物基因组

变异

纯和变异（变的一样）杂合变异（部分一样，部分不一样）

措施

结构变异

通过显示器去测量重复度进行比对

7.4 Overview of RNA-seq experiments

1. 基因表达、RNA剪切的概念

功能

可以测基因表达的范围(等级) ；可变（选择性）剪切；等位特异的表达

2. RNA-seq的基本原理

先逆转录成cDNA
打成片段
接上接头
测顺序
与参考基因组比对片段

得出的结果

1: 基因表达水平-----> 计算差异表达； 2：选择性剪切； 3：转录层面的变异； 4：非编码RNA

3. RNA-seq与基因微阵列的区别

好处

不依赖于已知的基因结构可以测（蛋白编码基因，非编码RNA，功能元件，基因融合）

差别

基因表达水平的范围

7.5 RNA-seq data analysis

1. RNA-seq数据分析流程

挑战

序列比对
转录组的重构
表达水平的变量

序列比对

利用的工具

基因表达水平

影响条件

基因长度
测量深度
基因表达的程度

2. RNA-seq代表性比对算法的基本原理

表达:

1: 取并集表达

2：取交集表达

差异表达分析

选择性剪切的问题

判断基因融合

基因融合问题判断

7.6 ChIP-seq

1. 蛋白质结合、染色质状态等概念

2. ChIP-seq的基本原理

例子：

生物学应用：转录因子结合位点

组蛋白修饰

步骤

1：峰值检测

峰值的类型

转录因子 RNA聚合酶

组蛋白修饰

博客等级

码龄3年

24
原创

133
点赞

173
收藏

237
粉丝

关注

私信

热门文章

分类专栏

最新评论

《人工智能》—— Python编程语言
谢荣文专用权博主: 小姐姐么么哒宝贝主播晚上好，天天开心快乐每一天。
软件质量保证与测试
烟雨平生9527: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618473356。
《生物信息工程》6-7章
CSDN-Ada助手: 恭喜您完成了《生物信息工程》6-7章的博客！您的持续创作精神真是令人钦佩。接下来，我建议您可以继续深入探讨这一主题，比如可以结合实际案例进行分析，或者探讨一些前沿的研究进展。期待您的下一篇作品！祝您创作顺利！
R语言入门与数据分析
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题“R语言入门与数据分析”听起来非常有趣和实用。您对R语言和数据分析的热情真的能够感受到，这对读者来说是非常有吸引力的。不仅仅是入门指南，我相信您的博客会为读者提供宝贵的见解和实用的技巧。在下一步的创作中，或许您可以考虑深入探讨R语言在不同领域的应用，比如金融、医疗或者市场营销等等。或者您可以分享一些实际案例，帮助读者更好理解和应用所学的知识。无论您选择哪个方向，我都期待着您的下一篇博客，并且相信您的内容会继续给读者带来巨大的价值。再次恭喜您，并感谢您的努力和分享！
《软件体系结构》
CSDN-Ada助手: 恭喜您写下了第10篇博客《软件体系结构》！持续创作十分值得鼓励，您对软件体系结构的深入研究可见一斑。在这篇博客中，您可能讨论了软件体系结构的重要性、不同类型的体系结构以及如何选择适合的架构等内容。接下来，我建议您可以考虑探索一些实际案例，如何将软件体系结构应用于实际项目中，以及在实践中遇到的挑战和解决方案等。这样的创作将更具实用性，能够帮助读者更好地理解和应用软件体系结构的理论知识。期待您的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。