北京大学生物信息学-第五周-新一代测序(NGS) 回帖 BWT算法

新一代测序

Read: A short DNA fragment which is read out by sequencer.
读:由测序仪读出的短DNA片段。
DNA序列+质量信息->FASTAQ
在这里插入图片描述
在这里插入图片描述

序列回帖和变异鉴定

Reads Mapping:
将测序得到的DNA片段也就是Reads定位在基因组上,往往作为深度测序的第一步,其好坏快慢都会对后续操作产生影响。
本质上还是双序列比对问题,与经典的双序列比对里有很大的不同。
长度
数据量
数据质量:reads质量参差不齐
地位不同:read嵌入其中

在这里插入图片描述
在这里插入图片描述
对Read来说是全局比对,对基因组来说是局部比对。
在这里插入图片描述
很多时候都会是无效的,所以采取seeding-extending策略。
在这里插入图片描述
索引:
对数据的分组
在这里插入图片描述
哈希:
只需要常数时间就可以完成对基因组的查找:
在这里插入图片描述
在这里插入图片描述
抽屉原理:
在这里插入图片描述
在这里插入图片描述
BWT转换:可以逐位对比,对片段进行延申,大大提高内存利用效率和比对的速度。
在这里插入图片描述
和blast搜索数据不同的是,目前新一代测序技术的错误率还很高,要考虑测序错误假象引起的可能性。
在这里插入图片描述
SNP Calling is NOT Genotyping:SNP调动不是基因分型
• “SNP calling aims to determine in which positions there are polymorphisms or in which positions at least one of the bases differs from a reference sequence”
SNP调用旨在确定在哪些位置存在多态性,或者在哪些位置至少有一个碱基与参考序列不同
• “Genotype calling is the process of determining the genotype for each individual and is typically only done for positions in which a SNP or a ‘variant’ has already been called.”
基因型调用是确定每个个体的基因型的过程,通常只在已经调用了SNP或’变体‘的位置上执行。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

关于回帖、变异鉴定的补充材料

BWT:
将第一排序列的第二位前移一位,将第一位放到最后,重复这个过程,生成左边的矩阵。(列)
将左边矩阵以行为单位,(首字母排序)对其进行排序就生成了右边的矩阵。将序列最右边的序列取出来,就有了下边的序列。
左边矩阵的第一列=右边矩阵的第二行,I=2。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这个bwt算法讲的很好:比较形象nice https://www.cnblogs.com/super-zhang-828/p/6856011.html

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值