[生信]利用seqkit对双端测序文件成对的进行down sampling

最新推荐文章于 2024-03-14 18:03:30 发布

prumin

最新推荐文章于 2024-03-14 18:03:30 发布

阅读量2.7k

点赞数

分类专栏：生物信息软件

本文链接：https://blog.csdn.net/prublue/article/details/121893063

版权

SeqKit FASTQ downsampling sequence extraction bioinformatics

关键词由CSDN通过智能技术生成

问题描述：在用seqkit的sample函数取指定数目或者比例的序列的时候，总是提示r1和r2的操作的序列不匹配。于是组合使用几个seqkit的工具实现提取。

安装可以使用conda：

conda install -c bioconda seqkit

两个即将进行downsampling 的原始文件均为100行

wc r*.gz
  100   125  8663 r1.test.fastq.gz
  100   125  8799 r2.test.fastq.gz
  200   250 17462 total

#对其中的一个文件进行down sampling 随机取5条序列id
seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
# 这里的id就是从“@”开始,到遇到的第一个空格前的所有的内容

seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name --only-id > id.txt
[INFO] sample by number
[INFO] loading all sequences into memory...
[INFO] 4 sequences outputted

# 如果要选取所有的名字
# seqkit sample -n 5 r1.test.fastq.gz     | seqkit seq --name > name.txt


# 查看id list，这里没有展开id具体信息，可以自行用cat查看提取是否正确
wc id.txt
  4   4 155 id.txt

# 根据list对r1/2进行对应的提取
cat r1.test.fastq.gz | seqkit grep -f id.txt > r1.sub.fq.gz
cat r2.test.fastq.gz | seqkit grep -f id.txt > r2.sub.fq.g

最低0.47元/天解锁文章

prumin

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[生信]利用seqkit对双端测序文件成对的进行down sampling

问题描述：在用seqkit的sample函数取指定数目或者比例的序列的时候，总是提示r1和r2的操作的序列不匹配。于是组合使用几个seqkit的工具实现提取。安装可以使用conda：conda install -c bioconda seqkit两个即将进行downsampling 的原始文件均为100行wc r*.gz 100 125 8663 r1.test.fastq.gz 100 125 8799 r2.test.fastq.gz 200 250
复制链接

扫一扫