0069-【数据质控】-测序下机数据统计方法

下机数据的格式一般为fq.gz

fastq序列条数统计

压缩格式解压,统计行数除以4

# 通常以fastq.gz格式压缩
zcat  input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 推荐下面的方法 pigz 会比gzip快10倍
pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'

# 如果不是压缩格式
cat input.fastq | awk 'NR%4==2{c++} END{print c}'

fasta序列条数统计

统计大于号开始的行数或seqkit 工具

# 通过搜索>的数量
grep -c '^>' myFasta.fasta

#seqkit统计提取,速度也是很快的
seqkit stats t.fa -T | grep -v file | cut -f 4

# 统计 1-100bp 范围长的序列数
cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4

转载自文章:
https://blog.csdn.net/luo617/article/details/81220829

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值