测序数据量:
常见的测序量概念有 M 和 G ,for example 10M 和 10G
解释:
M 常用于描述reads 的数量。 例如 10M 就是 10 *10^6 条reads
G 常用于描述这一批次测序共有的碱基数量。 例如 10G 就是10*10^9个碱基
M 和 G 之间的关系
比如说对于3G测序量的理解:
3G指有 5*10^9 个碱基,假如采取illumia的PE150测序,即150bp双端测序,算有多少M测序量的公式为 3*10^9 / 150 / 2 =10 M
测序深度
测序深度 = 测序得到的碱基总个数 / 参考基因组大小
比如说对于30G测序量的人类基因组测序深度是多少?(人类参考基因组3G)
测序深度 = 30*10^9 / 3*10^9 =10X
测序覆盖度
测序获得的序列占整个基因组的比例
测序深度 | 覆盖率 | SNP检出率 | 研究目的 |
6-10X | 90%-99% | 70%-90% | 群体结构,群体选择分析等等 |
30X | 99.9%-100% | 95%-99% | 个体基因组信息 |
50X | 99.9%-100% | >99% | BSA、癌细胞样本测序、关心突变频率的研究类型 |