山大公开课——高通量测序1

本文探讨了高通量测序的偏差和错误,包括454和Illumina平台的问题及解决策略。此外,讨论了速度、内存需求以及数据存储和可视化面临的挑战。在de novo测序、转录组学、重测序和表观基因组学等领域,阐述了各自独特的难题。猛犸象基因组测序计划作为实例,展示了古基因组学的挑战,如DNA损伤和环境污染。
摘要由CSDN通过智能技术生成

Sequencing bias/errors

1. 产生原因
454:识别不同荧光信号,不易区分homopolymer
Illumina:当分子簇形成数量较少时,不能灵敏地捕获荧光信号;及信号冲突,对于High GC区域的覆盖度比较低。
2. 解决方法(Correcting errors in short reads by multiple alignments/ Quake: quality-aware detection and correction of sequencing errors/ ECHO: A reference-free short-read error correction algorithm)
(1)Deep sequencing
(2)Statistical evaluation
(3)Error correction

Speed and RAM

  1. 高通量数据分析通常需要多个计算节点(CPU-intensive jobs: read mapping, metagenomics)和大的内存(RAM-intensive jobs:genome assembly),CPU访问内存速度比硬盘快得多,若拼接一个人的基因组,约需要512G的内存。
  2. Performance in amazon EC2(http://bowtie-bio.sorceforge.net/crossbow)
    Serchi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值