mothur summary.seqs 统计fasta文件中每条序列的长度

在介绍summary.seqs的用法之前,我们首先需要搞清楚两个概念:

1)ambiguous bases

中文叫做模糊碱基,对于DNA序列来说,只有ATCG 4种碱基,在IUPAC定义的碱基标准中,出了上述4种碱基之外,还包括其他的碱基,可以代表不同类型的碱基

代码英文含义中文含义
G Guanine鸟嘌啉
A Adenine腺嘌啉
T(U)Thymine (Uracil)胸腺嘧啶 (尿嘧啶)
C Cytosine胞嘧啶
R(A or G)PuRine嘌啉
Y(C or T or U)Pyrimidine嘧啶
M(A or C)Amino腺嘌啉或胞嘧啶(氨基)
K(G or T)Ketone鸟嘌啉或胸腺嘧啶(酮基)
S(C or G)Strong interaction强相互作用碱基
W(A or T)Weak interaction弱相互作用碱基
H(A or C or T)Not-G (H after G)非鸟嘌啉
B(C or G or T)Not-A (B after A)非腺嘌啉
V(A or C or G)Not-T/U (V after U)非胸腺嘧啶
D(A or G or T)Not-C (D after C)非胞嘧啶
N(A or C or G or T)Any不确定

模糊碱基实际上就是除了A T C G 这4种碱基之外的其他碱基

2)homopolymer base

由1个碱基重复多次的序列,比如GCAGAAAAAAA 序列中,末端的一串A就是 homopolymer base

summary.seqs的基本用法:

mothur "#summary.seqs(fasta = "input.fasta")"

 

运行成功之后,会生成input.summary 文件,内容如下:

seqname	start	end	nbases	ambigs	polymer	numSeqs
1	1	24	24	0	2	1
2	1	25	25	10	10	1
3	1	25	25	2	1	1
4	1	24	24	0	18	1
5	1	24	24	0	2	1
6	1	24	24	0	1	1
7	1	24	24	0	1	1
8	1	25	25	0	2	1

 

共7列,每列表头含义如下:

seqname : 序列标识符

start      :  起始位置,从1开始

end       :   终止位置,

nbases  :  总碱基数,可以看做序列长度

ambigs  : ambiguous bases 模糊碱基的数目

polymer :  homopolymer 碱基的最大长度

numSeqs : 序列数,对于每条序列来说,其值总是为1

除了上述的基本用法外,summary.seqs 还有很多的参数;

processors  : CPU个数,mothur 是支持并行的,通过设置processors 参数可以并行执行程序,用法如下:

mothur "#summary.seqs(fasta = "input.fasta", processors = 10)"

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值