基础软件安装
# 安装fastq-pair
conda install -c bioconda fastq-pair -y
conda install bedtools -y
conda install samtools -y
对双端fastq验证是否全部配对,计算fastq raw reads数量和基于bam文件计算指定区域的reads数量。
1. fastq-pair简介
验证fastq是否配对,并重写配对末端fastq文件,以确保所有reads都有一个配对的read1和read2,并分离出单端reads。
2. fastq-pair基本用法
# 输入2个配对的fastq文件
fastq_pair sample.R1.fastq sample.R2.fastq
# 生成4个文件,如果完全配对则2个single文件大小为0
# sample.R1.paired.fastq
# sample.R1.single.fastq
# sample.R2.paired.fastq
# sample.R2.single.fastq
3. bash计算fastq文件的reads数量和碱基数
######## 计算reads数量 ########
echo "`cat sample.fq|wc -l` / (4*1000000)"|bc -l
# 2.691563(单位M)
######## 计算碱基数 ########
cat sample.fq| awk '{if(FNR%4==0) base+=length}END{print base/10^9, "G"}'
# 0.13727 G
其中bc -l 是Linux中的计算命令,相当于计算器对echo输出的公式进行计算。
4. bash计算fastq.gz文件reads数量和碱基数
######## 计算reads数量 ########
echo "`zcat sample.fq|wc -l` / (4*1000000)"|bc -l
# 2.691563(单位M)
######## 计算碱基数 ########
zcat sample.fq| awk '{if(FNR%4==0) base+=length}END{print base/10^9, "G"}'
# 0.13727 G
5. bash批量统计fastq raw reads数量
# 遍历当前全部.fq文件,对全部.fq文件进行reads统计
ls *fq|while read fastq; do
echo
fastq_reads=$(echo "`cat ${fastq}|wc -l` / (4)"|bc -l|cut -d '.' -f1)
echo "$fastq: $fastq_reads"
# 结果追加至fastq.statistic文件
echo "$fastq $fastq_reads" >> fastq.statistic
done
6. 指定区域reads数量提取
根据BAM文件指定区域(bed文件)的reads数量进行统计。
# 统计bam文件全部reads数量
samtools view -c sample.sorted.bam > sample.count
# 根据bed文件坐标统计指定区域的reads数控
bedtools multicov -bams sample.sorted.bam -bed chr1.bed > chr1.bed.count
# chr1.bed, \t分割
# 染色体名称 开始坐标 结束坐标
# chr1 1000000 1000100
# chr1 2000000 2000200
# chr1.bed.count结果
# chr1 1000000 1000100 4
# chr1 2000000 2000200 0
生信软件文章推荐
生信软件1 - 测序下机文件比对结果可视化工具 visNano
生信软件3 - mapping比对bam文件质量评估工具 qualimap
生信软件4 - 拷贝数变异CNV分析软件 WisecondorX
生信软件7 - 多线程并行运行Linux效率工具Parallel
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计
生信软件9 - 多公共数据库数据下载软件Kingfisher
生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa
生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV
生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )
生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计
生信软件14 - bcftools提取和注释VCF文件关键信息
生信软件15 - 生信NGS数据分析强大的工具集ngs-bits
生信软件17 - 基于fasta文件的捕获探针设计工具catch
生信软件18 - 基于docker部署Web版 Visual Studio Code
生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑
生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump
生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle
生信软件23 - Samtools和GATK去除PCR重复方法汇总
生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download
生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2
生信软件27 - 基于python的基因注释数据查询/检索库mygene