❀前言:(书接上回)
零基础小白笔记1 | ChIP-seq原理、操作流程、分析流程
一、为何要进行去重:
我们在建库时通常会进行PCR操作。在这个过程中,来自一个DNA片段的两个拷贝可能会锚定在两个reads上,这两条reads都会进行测序。在PCR扩增次数过多的情况下,会导致一些序列持续扩增,而另一些序列扩增到一定程度后便不会再进行,此时便会出现扩增偏差影响置信度。
一般认为若有两条reads比对到了基因组的同一位置,那么就认为这样的reads是由PCR扩增而来,就会被标记。
二、使用picard去除重复:
1.picard:是一个用于处理和分析生物信息学数据的工具集,主要用于处理与测序数据相关的任务。通过 Picard 工具,可以识别和标记 PCR 重复,这对于测序数据的后续分析是很重要的。
2.使用用法:
picard MarkDuplicates \
-INPUT /your/input/file_sort.bam \
-OUTPUT /your/output/file_sort_picard.bam \
-METRICS_FILE /your/info/file_sort_picard.mat \
-REMOVE_DUPLICATES true
(2.1)markduplicates:是 Picard 工具集中的一个命令行工具,主要用于识别和标记测序数据中的 PCR 重复。使用此工具可以帮助研究人员去除PCR重复;
- -INPUT:表示输入的bam文件;
- -OUTPUT:表示标记 PCR 重复后的输出文件;
- -METRICS_FILE:生成的 PCR 重复统计信息文件;
- -REMOVE_DUPLICATES:true表示默认移除PCR重复的reads;
三、使用samtools工具过滤
samtools view -hb -q 10 -F 4 -@ 6 /your/input/file.bam > /your/output/file_filter.bam
1.samtools view 是 Samtools 工具包中的一个命令,用于查看和转换 SAM/BAM 格式的文件,也可用于过滤掉质量比较低的序列;
2. 用法:samtools view [options] <in.bam>|<in.sam>|<in.cram>
- -b,--bam:输出以 BAM 格式显示。如果输入文件已经是 BAM 格式,则该选项无效;
- -h,--header:显示文件头信息;
- -F,--exclude:排除指定的标志位;-F 4 表示删除未配对的reads;
- -f:表示保留指定标志位;
- -q:仅显示比对质量大于等于指定阈值的比对;-q 10表示显示对比适量大于10的reads;
- -@ :表示使用的线程数;
- >:为重定向符;表示输出文件到指定目录;
四、为bam文件创建目录
samtools index -@ 6 -b /your/input/file_filter.bam
1.samtools index是 Samtools 工具包中的一个命令,用于为 BAM 文件创建索引,以便于快速的随机访问。本操作主要为方便后续操作而创建关于bam文件的目录;将生成一个名为input.bam.bai的索引文件。
2.使用用法:samtools index [-bc] [-m INT] <in.bam>
- -b:表示为bam文件建立一个bai格式的索引;
- -@:使用的线程数;