cd-hit 去冗余

最新推荐文章于 2024-12-29 12:19:10 发布

猿大人007

最新推荐文章于 2024-12-29 12:19:10 发布

阅读量8.1k

点赞数

分类专栏：生物信息软件应用文章标签： cd-hit 去冗余

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rojyang/article/details/81205548

版权

cd-hit是一款用于生物信息学中去冗余序列的工具，常用于构建非冗余基因集和分析序列相似性。它按照设定的相似性阈值进行聚类，保留最长序列作为代表。通过调整参数如相似性阈值(-c)、内存分配(-M)和线程数(-T)，可以灵活控制去冗余过程。除了蛋白序列，cd-hit-est适用于核酸序列的去冗余，提供更快的速度和更好的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下载：http://www.bioinformatics.org/cd-hit/

背景：生信分析中经常要根据指定条件查找相似序列，比如构建多个样品间的非冗余基因集、分析样品间的相似程度。

cd-hit 去冗余，也可以叫做相似序列的聚类

工作原理可概述为：将所有序列按照参数设定进行聚类，并将每一组聚类中的最长序列作为代表序列进行输出，同时给出每组聚类下的每个序列名可供相似度分析使用。其中设定阈值需要注意（默认相似性在0.9）

简要的使用：

eg:蛋白序列的去冗余

cd-hit -i all.prot.fa -o all.nr.prot.fa -M 0 -T 24

说明：

软件：cd-hit

参数：基本默认

-i ：预测的蛋白序列

-o ：输出文件

-M ：分配的内存

-T ：线程数

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。