cd-hit 去冗余

cd-hit是一款用于生物信息学中去冗余序列的工具,常用于构建非冗余基因集和分析序列相似性。它按照设定的相似性阈值进行聚类,保留最长序列作为代表。通过调整参数如相似性阈值(-c)、内存分配(-M)和线程数(-T),可以灵活控制去冗余过程。除了蛋白序列,cd-hit-est适用于核酸序列的去冗余,提供更快的速度和更好的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

下载:http://www.bioinformatics.org/cd-hit/

背景:生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度。

cd-hit 去冗余,也可以叫做相似序列的聚类

工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈值需要注意(默认相似性在0.9)

简要的使用:

eg:蛋白序列的去冗余

cd-hit -i all.prot.fa -o all.nr.prot.fa -M 0 -T 24

       说明:

                     软件:cd-hit

                     参数:基本默认

                                   -i :预测的蛋白序列

                                   -o :输出文件

                                   -M :分配的内存

                                   -T :线程数

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值