Rawdata
- 对rawdata的fastq进行fastqc检查,决定是否cut某些位置,对所有数据进行了cut前10bp的操作
Data trimming
- 所有fastp参数详解 fastp-parameters
fastp --thread=16 -q 20 -l 50 -f 10 -F 10 -i tumor_R1.fastq.gz -o
tumor_R1_clean.fastq -I tumor_R2.fastq.gz -O tumor_R2_clean.fastq
-l
参数对长度低于50的reads进行过滤
-h -j
可改变质控结果文件名
- 质量过滤
-q, --qualified_quality_phred
碱基质量值不小于多少时为合格碱基,默认碱基质量值15,默认碱基质量>=15是合格碱基;
-u, --unqualified_percent_limit
允许不合格碱基的占比为多少时去掉这条read,默认不合格碱基占比>40%时,去掉该read; - 整体切除
-f -F
对R1和R1分别cut开端多少bp
-t -T
对R1和R1分别cut尾部多少bp
Prepipline 数据预处理 bwa-bqsr
- BWA
bwa mem -t 24 -R "@RG\tID:tumor\tSM:tumor\tLB:WES\tPL:Illumina" /data2/references/Homo_sapiens/hg38.genomic.fa /data1/01.projects/USER006/cleandata/tumor_R1_clean.fastq
/data1/01.projects/USER006/cleandata/tumor_R2_clean.fastq > /data1/01.projects/USER006/mapping/tumor.sam
- SortSam
samtools view -bS tumor.sam > tumore.bam
samtools sort -@ 5 tumor.bam -o tumor.sorted.bam
samtools index tumor.sorted.bam