生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

最新推荐文章于 2025-02-07 15:55:23 发布

生信与基因组学

最新推荐文章于 2025-02-07 15:55:23 发布

阅读量1.4k

点赞数 10

分类专栏：生物信息学软件文章标签：数据分析 linux 数据挖掘

本文链接：https://blog.csdn.net/LittleComputerRobot/article/details/140653582

版权

生物信息学软件专栏收录该内容

45 篇文章

订阅专栏

基础软件安装

# 安装fastq-pair
conda install -c bioconda fastq-pair -y
conda install bedtools -y
conda install samtools -y

对双端fastq验证是否全部配对，计算fastq raw reads数量和基于bam文件计算指定区域的reads数量。

1. fastq-pair简介

验证fastq是否配对，并重写配对末端fastq文件，以确保所有reads都有一个配对的read1和read2，并分离出单端reads。

2. fastq-pair基本用法

# 输入2个配对的fastq文件
fastq_pair sample.R1.fastq sample.R2.fastq

# 生成4个文件，如果完全配对则2个single文件大小为0
# sample.R1.paired.fastq
# sample.R1.single.fastq
# sample.R2.paired.fastq
# sample.R2.single.fastq

fastq_pair 用法

3. bash计算fastq文件的reads数量和碱基数

######## 计算reads数量 ########
echo "`cat sample.fq|wc -l` / (4*1000000)"|bc -l

# 2.691563(单位M)


########  计算碱基数 ########
cat sample.fq| awk '{if(FNR%4==0) base+=length}END{print base/10^9, "G"}'

# 0.13727 G

其中bc -l 是Linux中的计算命令，相当于计算器对echo输出的公式进行计算。

4. bash计算fastq.gz文件reads数量和碱基数

######## 计算reads数量 ########
echo "`zcat sample.fq|wc -l` / (4*1000000)"|bc -l

# 2.691563(单位M)


########  计算碱基数 ########
zcat sample.fq| awk '{if(FNR%4==0) base+=length}END{print base/10^9, "G"}'

# 0.13727 G

5. bash批量统计fastq raw reads数量

# 遍历当前全部.fq文件，对全部.fq文件进行reads统计
ls *fq|while read fastq; do
	echo 
	fastq_reads=$(echo "`cat ${fastq}|wc -l` / (4)"|bc -l|cut -d '.' -f1)
	echo "$fastq: $fastq_reads"
	
	# 结果追加至fastq.statistic文件
	echo "$fastq    $fastq_reads" >> fastq.statistic

done

6. 指定区域reads数量提取

根据BAM文件指定区域(bed文件)的reads数量进行统计。

# 统计bam文件全部reads数量
samtools view -c sample.sorted.bam > sample.count

# 根据bed文件坐标统计指定区域的reads数控
bedtools multicov -bams sample.sorted.bam -bed chr1.bed > chr1.bed.count

# chr1.bed， \t分割
# 染色体名称 开始坐标  结束坐标
# chr1	1000000	1000100
# chr1	2000000	2000200

# chr1.bed.count结果
# chr1	1000000	1000100	4
# chr1	2000000	2000200	0