对有参考基因组的进行测序,区分于de novo。
基本步骤:1.测序2.比对到参考基因组3.变异检测
1.测序
一代:sanger ddntp 通量低,准确率高
二代:illumine 读长短,通量高,准确性高
三代:pacbio/nanopore 读长长 准确率低
先用鸟枪法 :打断序列 分成很短的reads。
之后选择测序方式:single end paired end
测序产生:fq文件 对文件格式的理解是数据解读的关键。
不同公司测序标准不同,第四行不同
人类基因组参考序列 UCSC the Genome Reference Consortium (GRC) hg19
fa格式文件中第2行基因序列测不了的地方用N来替代如着丝粒地方。
测的目的
突变 1.somatic de novo mutations 体细胞突变 cancer snv single-nucleotide variant
2.germline de novo mutations 生殖细胞突变 snp
SNP与点突变的区别:
变异频率大于1%为SNP
变异频率低于1%为点突变
变异类型:1,SNP 2,indels 3,SV long indels 染色体重组 CNV
建库:1.全基因组2.设计特定的探针或芯片3.PCR
比对 :BWA Bowtie2 sam格式 bam是二进制的sam 对文件格式的理解是内容的关键
cram格式 代表的内容相同,方式不同
BWA中 mem比对的序列长度大相对于 samse
reads duplications 由于PCR不准确产生需要去掉有偏差的重复
深度:每个位点覆盖reads的数量
覆盖率:某个区域满足覆盖度的比例
bandst 计算深度,覆盖率
变异检测软件:bcftools samtools GATK